Methodology
评估方法
AI 搜索可见性分析(GEO)是一个聚焦的实验性工具,希望量化品牌在中国 AI 搜索(豆包 / 千问 / DeepSeek 等)中的可见度。
AI 搜索可见性流程
- 1意图扩展 (Query Fanout)输入品牌名 + 品类描述,用 qwen-plus 生成 30 个真实用户视角的提问,按四类用户意图严格分桶: direct(用户点名问)、category(问品类)、comparison(问对比)、scenario(只描述需求场景)。 Query Library 按品类模板化设计,可按需扩展题量与品类。
- 2多模型并行评测30 题分别发送至豆包、千问、DeepSeek 三个国产大模型,30 题 × 3 模型 = 90 组品牌可见度样本; 通过 ThreadPoolExecutor 并发调用,一轮审计约 10 分钟内完成,支持快速迭代。
- 3LLM-as-judge 可见度评分每个回答交由 qwen-plus 按 0/25/50/75/100 五档评估品牌可见度,将开放式回答转化为可量化、可对比的结构化分数:0未提及25简短提及,一笔带过50中性提及,与其他品牌并列75有正面评价,但非首选100主动推荐 / 列为首选
- 4联网搜索引用源对 category 类问题额外调用 DashScope 的 enable_search 接口,抓取 AI 联网时实际引用的网页 (title / url / site_name),还原「AI 了解这个品牌时,到底在引用谁」。 当前 Demo 的引用源为示例数据,生产实现需对每题触发联网检索并解析实际返回的引用域名。
- 5聚合统计与缺口诊断将所有评分按「意图分桶 / 模型 / 总体」三个维度聚合,产出各维度的可见度 % 与均分。
核心诊断:对比 direct(用户点名问)与 scenario(用户只描述需求)的得分差—— 点名问是送分题,真正考验品牌的是,当用户不知道用谁、只描述场景时,AI 还会不会主动推荐你。 这个差值,就是品牌在真实搜索下的可见度缺口。
Demo vs 生产实现的差距
| 维度 | 当前 Demo | 生产实现 |
|---|---|---|
| 采样策略 | 每题单次调用 | 每题多次采样取均值,并报告波动区间,消除 LLM 输出的随机性 |
| 品牌识别 | 关键词字面匹配 | 覆盖品牌的简称、别名、英文名与常见错写,避免漏判 |
| 任务调度 | 同步阻塞调用 | 异步任务队列,支撑高并发的批量审计 |
| 数据存储 | 本地 JSON 缓存 | 持久化数据库,支持历史查询与趋势回溯 |
| 持续追踪 | 单次快照 | 每日定时复跑,形成可见度时间序列 |
| 覆盖范围 | 缓存 5 个 OTA 品牌真实数据用于演示 | 全量品牌库 + 用户自定义品牌输入 |
| 引用源获取 | 示例数据占位 | 对每题触发联网检索,解析模型实际返回的引用域名并聚合 |
| 评分一致性 | 单模型 LLM 打分 | 多评委交叉打分 + 定期人工抽检校准,降低评分偏差 |
技术栈
Python 3.11
后端管道
OpenAI SDK
OpenAI 兼容接口
DashScope SDK
百炼 native 搜索 API
火山方舟
豆包模型
阿里百炼
千问 + DeepSeek 托管
ThreadPoolExecutor
多题并行
Next.js 14
前端 (App Router)
Recharts + framer-motion
可视化 + 动效
Made by an AI PM · 2026