Methodology

评估方法

AI 搜索可见性分析（GEO）是一个聚焦的实验性工具，希望量化品牌在中国 AI 搜索（豆包 / 千问 / DeepSeek 等）中的可见度。

AI 搜索可见性流程

1
意图扩展 (Query Fanout)
输入品牌名 + 品类描述,用 qwen-plus 生成 30 个真实用户视角的提问,按四类用户意图严格分桶: direct(用户点名问)、category(问品类)、comparison(问对比)、scenario(只描述需求场景)。 Query Library 按品类模板化设计,可按需扩展题量与品类。
2
多模型并行评测
30 题分别发送至豆包、千问、DeepSeek 三个国产大模型,30 题 × 3 模型 = 90 组品牌可见度样本; 通过 ThreadPoolExecutor 并发调用,一轮审计约 10 分钟内完成,支持快速迭代。
3
LLM-as-judge 可见度评分
每个回答交由 qwen-plus 按 0/25/50/75/100 五档评估品牌可见度,将开放式回答转化为可量化、可对比的结构化分数:
0未提及
25简短提及,一笔带过
50中性提及,与其他品牌并列
75有正面评价,但非首选
100主动推荐 / 列为首选
4
联网搜索引用源
对 category 类问题额外调用 DashScope 的 enable_search 接口,抓取 AI 联网时实际引用的网页 (title / url / site_name),还原「AI 了解这个品牌时,到底在引用谁」。当前 Demo 的引用源为示例数据,生产实现需对每题触发联网检索并解析实际返回的引用域名。
5
聚合统计与缺口诊断
将所有评分按「意图分桶 / 模型 / 总体」三个维度聚合,产出各维度的可见度 % 与均分。
核心诊断:对比 direct（用户点名问）与 scenario（用户只描述需求）的得分差—— 点名问是送分题,真正考验品牌的是,当用户不知道用谁、只描述场景时,AI 还会不会主动推荐你。这个差值,就是品牌在真实搜索下的可见度缺口。

Demo vs 生产实现的差距

维度	当前 Demo	生产实现
采样策略	每题单次调用	每题多次采样取均值,并报告波动区间,消除 LLM 输出的随机性
品牌识别	关键词字面匹配	覆盖品牌的简称、别名、英文名与常见错写,避免漏判
任务调度	同步阻塞调用	异步任务队列,支撑高并发的批量审计
数据存储	本地 JSON 缓存	持久化数据库,支持历史查询与趋势回溯
持续追踪	单次快照	每日定时复跑,形成可见度时间序列
覆盖范围	缓存 5 个 OTA 品牌真实数据用于演示	全量品牌库 + 用户自定义品牌输入
引用源获取	示例数据占位	对每题触发联网检索,解析模型实际返回的引用域名并聚合
评分一致性	单模型 LLM 打分	多评委交叉打分 + 定期人工抽检校准,降低评分偏差

技术栈

Python 3.11

后端管道

OpenAI SDK

OpenAI 兼容接口

DashScope SDK

百炼 native 搜索 API

火山方舟

豆包模型

阿里百炼

千问 + DeepSeek 托管

ThreadPoolExecutor

多题并行

Next.js 14

前端 (App Router)

Recharts + framer-motion

可视化 + 动效

Made by an AI PM · 2026

查看示例审计