大部分 Badcase 根本还没走到「工具返回不准」或「模型总结瞎编」这一步——在第二关(要不要调、调什么、调几个)就已经死了。L1+L2 合计 51 例(82%),是上游基础设施和路由逻辑的问题。
反过来看:本轮采集无纯模型总结幻觉(L4),即前面三层都正确但模型自己编造。这说明当前的「幻觉」问题更多是上游传导(定位不准→搜不到→被迫编造),而非模型主动撒谎。
| 层级 | 子类 | 数量 | 占比 | 根本原因 | Case |
|---|---|---|---|---|---|
| L1 位置判断 | — | 6 | 10% | 接口返回粒度过粗:定位仅到街道/镇级别,缺少精确 POI 匹配(如住宅 vs 写字楼),部分 Case 经纬度偏差达 2km | NO.474 NO.469 NO.445 NO.463 NO.470 NO.492 NO.528 NO.529 |
| L2 工具调用(主模型FC/意图模型) | 未调用工具 | 22 | 35% | 意图识别完全没触发。应调:地理位置 9例 / 导航 9例 / 本地生活 5例(去重 22 例) 地理位置 9 例中:精准定位 6 例("我在哪""看一下位置"未触发) + 天气 3 例(未调定位就查天气,可能已修复待验证) |
地理位置:NO.457 NO.534 NO.439 NO.468 NO.475 NO.450 NO.451 NO.494 NO.495 导航:NO.459 NO.460 NO.511 NO.512 NO.513 NO.514 NO.523 NO.524 NO.521 本地生活:NO.457 NO.429 NO.440 NO.446 NO.519 |
| 工具选错 | 8 | 13% | 调了工具但选错了——应调导航却调了文搜/图搜,应调地理位置却调了文搜,工具返回的结果与用户需求不匹配。 | NO.434 NO.506 NO.484 NO.486 NO.485 NO.464 NO.452 NO.517 | |
| 编排/并行不足 | 10 | 16% | 主要和搜索相关。应串行(先定位再搜索)却跳过定位直接搜;应并行(图搜+定位)却只调了一个。 | NO.535 NO.436 NO.456 NO.491 NO.453 NO.447 NO.498 NO.465 NO.466 NO.467 | |
| 不该调却调了 | 3 | 5% | 信息不足时不应调工具——不知道用户家/公司地址就把"家""公司"填入导航参数,或用户没明确需求就盲目调工具。 | NO.496 NO.493 NO.483 | |
| L3 工具返回 | — | 6 | 10% | 空搜/返回信息宽泛。比如调了导航但返回信息不符合预期(朝向、所在隧道等) | NO.520 NO.533 NO.499 NO.525 NO.526 NO.527 |
| L4 模型总结 | — | 0 | 0% | 本轮采集无纯 L4 Case(原 L4 已重新归类到上游层级) | — |
| L0 无法确定 | — | 5 | 8% | 场景不明确/信息不足/超出能力范围 | NO.432 NO.435 NO.444 NO.490 NO.510 |
| 层级 | 子问题 | 方案 | 优先级 | 覆盖 | 负责方 | 验证指标 |
|---|---|---|---|---|---|---|
| L1 位置判断 |
定位粒度过粗/偏差 |
短期:搜不到精确 POI 时,降级选择附近 POI(如定位到住宅小区但用户在写字楼 → 取最近商圈/写字楼 POI);同时增加埋点观测定位成功率漏斗 长期:与中台对接,接入专用定位 MCP(当前多种接口组合搜索,中台有统一定位 MCP,对接文档) |
P1 | 6例 (10%) | 业务侧 PM(蒋雨)→ 服务侧 + 中台 | 定位成功率漏斗、经纬度异常告警 |
| L2 工具调用 |
未调用工具 | 意图识别覆盖率提升——地理位置关键词("在哪""附近""前面""多远""怎么走""对面"等)→ 强制触发工具调用。应调:地理位置 9例 / 导航 9例 / 本地生活 5例 | P0 | 22例 (35%) | 模型侧 PM + 意图模型 | 地理位置 query 工具调用率 > 95% |
| 工具选错 | 建立意图→工具路由表:导航意图 → 导航工具;周边探索 → 地理位置+本地生活(串行);识图 → 图搜+地理位置(并行);天气 → 地理位置+天气(串行) | P0 | 8例 (13%) | 模型侧 PM + FC 路由 | 地理位置场景工具选择错误率对比 | |
| 编排/并行不足 | 「定位 + 联网搜索」组合强化:用户问"附近/周边/对面有什么"时,强制先定位再搜索,不允许跳过定位直接调文搜 | P0 | 10例 (16%) | 模型侧 PM + 编排层 | "跳过定位直接搜索"比例 | |
| 不该调却调了 |
短期:入参黑名单拦截——导航/文搜入参检测到"家""公司""上班"等抽象词时,不调工具,追问具体地址 长期:用户画像/记忆模块——用户首次说出家/公司地址后写入记忆,后续自动填充 覆盖:NO.452(end传"家"是错的)、NO.464(不能把上班填进终点)、NO.496(直接传"家"作为终点)、NO.493(不知道公司在哪就调了工具) |
P1 | 3例 (5%) | 模型侧 PM(短期)+ 工程(长期记忆) | "家""公司"入参调用量 → 0 | |
| L4 模型总结 |
本轮无纯 L4 Case | 原 L4 Case 均已重新归类至上游层级。保留拒答+后处理方案作为兜底防线 | P0 | 0例 | 模型侧 PM + 工程 | 地理位置场景幻觉率 |
| L3 工具返回 |
POI缺失/返回宽泛 |
1. POI 补全:推动服务侧补充小众店铺/新商场数据 2. 兜底策略:空搜时模糊匹配重试 + 返回质量检查 3. 监控看板:基于本批 71 Case 建回归评测集,按周追踪幻觉率 |
P2 | 6例 (10%) | 业务侧 PM → 服务侧 + 评测 | 空搜率、回归通过率、幻觉率周趋势 |
121.411125, 31.291239 → 上海市宝山区大场镇梧桐城邦116.053107, 39.633565 → 北京市房山区窦店镇(仅镇级),周边无外卖/餐饮 POI111.477334, 36.049473 → 高德逆地理返回:山西省临汾市尧都区尧庙镇(最近 POI:凡凡超市 72m、杜村村委会 321m){"longitude":111.477421,"latitude":36.049473,"city":"临汾","province":"山西","district":"尧都","town":"尧庙镇"}36.049473, 0(经度为 0 = 大西洋),这很可能是服务端返回脏数据导致后续距离计算全错。正确经度应为 111.477。{"longitude":117.176538,"latitude":39.145742,"city":"天津","province":"天津","district":"南开","town":"鼓楼街道"}geo_location_query