Methodology

评估方法

AI 搜索可见性分析(GEO)是一个聚焦的实验性工具,希望量化品牌在中国 AI 搜索(豆包 / 千问 / DeepSeek 等)中的可见度。

AI 搜索可见性流程

  1. 1
    意图扩展 (Query Fanout)
    输入品牌名 + 品类描述,用 qwen-plus 生成 30 个真实用户视角的提问,按四类用户意图严格分桶: direct(用户点名问)、category(问品类)、comparison(问对比)、scenario(只描述需求场景)。 Query Library 按品类模板化设计,可按需扩展题量与品类。
  2. 2
    多模型并行评测
    30 题分别发送至豆包、千问、DeepSeek 三个国产大模型,30 题 × 3 模型 = 90 组品牌可见度样本; 通过 ThreadPoolExecutor 并发调用,一轮审计约 10 分钟内完成,支持快速迭代。
  3. 3
    LLM-as-judge 可见度评分
    每个回答交由 qwen-plus 按 0/25/50/75/100 五档评估品牌可见度,将开放式回答转化为可量化、可对比的结构化分数:
    0未提及
    25简短提及,一笔带过
    50中性提及,与其他品牌并列
    75有正面评价,但非首选
    100主动推荐 / 列为首选
  4. 4
    联网搜索引用源
    对 category 类问题额外调用 DashScope 的 enable_search 接口,抓取 AI 联网时实际引用的网页 (title / url / site_name),还原「AI 了解这个品牌时,到底在引用谁」。 当前 Demo 的引用源为示例数据,生产实现需对每题触发联网检索并解析实际返回的引用域名。
  5. 5
    聚合统计与缺口诊断
    将所有评分按「意图分桶 / 模型 / 总体」三个维度聚合,产出各维度的可见度 % 与均分。

    核心诊断:对比 direct(用户点名问)与 scenario(用户只描述需求)的得分差—— 点名问是送分题,真正考验品牌的是,当用户不知道用谁、只描述场景时,AI 还会不会主动推荐你。 这个差值,就是品牌在真实搜索下的可见度缺口

Demo vs 生产实现的差距

维度当前 Demo生产实现
采样策略每题单次调用每题多次采样取均值,并报告波动区间,消除 LLM 输出的随机性
品牌识别关键词字面匹配覆盖品牌的简称、别名、英文名与常见错写,避免漏判
任务调度同步阻塞调用异步任务队列,支撑高并发的批量审计
数据存储本地 JSON 缓存持久化数据库,支持历史查询与趋势回溯
持续追踪单次快照每日定时复跑,形成可见度时间序列
覆盖范围缓存 5 个 OTA 品牌真实数据用于演示全量品牌库 + 用户自定义品牌输入
引用源获取示例数据占位对每题触发联网检索,解析模型实际返回的引用域名并聚合
评分一致性单模型 LLM 打分多评委交叉打分 + 定期人工抽检校准,降低评分偏差

技术栈

Python 3.11
后端管道
OpenAI SDK
OpenAI 兼容接口
DashScope SDK
百炼 native 搜索 API
火山方舟
豆包模型
阿里百炼
千问 + DeepSeek 托管
ThreadPoolExecutor
多题并行
Next.js 14
前端 (App Router)
Recharts + framer-motion
可视化 + 动效
Made by an AI PM · 2026