Agent没人用? 是你没做对这6件事(含0-1医疗Agent真实复盘)

2025-06-21 15:08:59
605

在AI技术蓬勃发展的当下，医疗Agent作为一款嵌入医院主页的智能模块，本应为患者提供高效便捷的咨询和问诊服务，但许多产品却面临用户使用率低下的困境。本文作者通过亲身参与一款医疗Agent产品的研发与落地，从0到1复盘了其在全国近1000家医院上线的全过程。

最近参与的Agent产品已在全国近1000家医院上线啦～（撒花）

在调研、试点、落地的过程中，我们踩了很多坑，也积累了不少经验。写下这些，希望能给正在做AI落地的朋友们一些参考。

备注：该Agent是嵌入在各医院主页中的模块，患者对该医院有任何问题，例如“有没有急诊？能租赁轮椅吗？小孩肚子痛挂什么科”等都可以进行询问，并直接在线问诊或挂号。

1.作为AI产品经理，找到真实的用户需求比技术理解力更重要

一开始我们没想着做AIAgent，只是后台频繁出现的问题引起了注意：

“怀孕四个月甲亢怎么办？”

“抽血在哪一楼？”

“有无痛胃镜吗？”

这些问题看起来很简单，但几乎没人答得上来。不是医生不专业，而是这些信息太零散，太长尾。很多答案藏在医院的HIS系统、公众号、甚至纸质易拉宝上，用户不是不愿查，是根本不知道去哪查。

因此我们思考：如果连医院工作人员都答不清，那有没有可能，AI能成为那个“统一回答者”？我们手上其实有不少底牌：医疗知识图谱、医生问答数据、医院服务信息和号源……粗略评估，覆盖大多数场景没问题。

但我们也没上来就动手，而是先看了下市场上有没有人做过：平台型产品（康康、安诊儿）偏健康咨询，服务信息回答不了；垂类产品（讯飞晓医）重问诊，医院运营类问题几乎空白。

结论很明确：用户有需求，市场没人做，我们就决定试一试。

2.MVP思路验证需求，不用一开始就Allin模型架构

我们并没有一上来就开干，而是利用MVP产品思维，用最小投入，在最短时间，验证最核心的用户价值后，才立项。

当时，秘塔AI搜索已有知识库上传能力，因此我将几份医院相关信息上传到秘塔知识库，让秘塔基于知识库回答，完成初步MVP方案。

整个知识库搭建你们猜猜用了多久？

10分钟。

能在这么短时间内搭建一个MVP产品在以前是不敢想的，但现在有了各种AI产品的加持，不懂代码的我也可以分分钟搭建一个可用的产品。

搭建好后，我把这个医院AI万事通发给同事、用户体验，虽然略粗糙，甚至都没有Prompt来优化回答，他们依然觉得在获取医院信息上，提效了不少，因为这些信息原本需要他们自己去找公众号、小红书、找熟人问，甚至给医院打电话咨询的。

除了信息获取的效率更高了，有些用户甚至还想直接在MVP方案里找到合适的医生在线问诊、买药品，或者挂号。你说巧不巧，我们正好也有在线问诊医生、药品和号源，可以完美承接用户诉求。

验证了用户需求真实后，我们就开干了。

3.产品、运营、研发没有边界，谁会谁上

其实我们团队之前没有专门为AI项目立过项，大多是某个子功能需要大模型能力，适当引入大模型。而这次完全是基于大模型的产品，因此产品、运营、研发、测试团队也在项目中探索各自的工作边界和如何协同。

现在回看过来，大家除了完成自己的本职工作，多多少少都会“插手”其他职能的工作。例如：

MVP方案是产品独立搭建的，完全无需研发参与；

运营会参与到写Prompt的工作中来，和产品、研发一起迭代workflow；

研发会参与到用户调研中，进行用户访谈和洞察提炼；

产品会直接写知识库结构，和研发一起完成知识库设计。

除了这些，大家也使出浑身解数来让这个产品更完美，运营甚至会跑郊区的医院，亲手拍下医院的公示牌，以验证大模型回复问题的准确性。虽然很辛苦，但大家都觉得值得。

4.不需要最好的模型，而是对的流程+对的模型

很多人以为做Agent就一定要用“最强的大模型”，比如GPT-4o，参数多、推理强、理解深。但在真实的工程实践中，我们并不需要最强的模型，而是最合适的位置上，用最合适的模型。

举个例子，在我们的Agent产品中，一个用户的提问，背后可能会依次触发这些模型：

[1]意图识别模型→判断患者意图。

这个模型的职责很明确：快速、稳定、低成本地判断患者是在问：症状挂什么科？楼层位置在哪？医院是否有停车场？此时，我们会选择响应快、成本低的模型，不需要多强的“思考力”，但必须稳、准、快的把意图分发到对应的工作流中。

[2]信息检索模型→找到医院信息、医生、号源。

这一部分对“准确性”要求极高，查错楼层、医生信息会直接误导用户。所以我们更依赖结构化数据库+检索能力，而不是纯靠生成模型自由发挥，能答对、答全、答准最重要。

[3]内容生成模型→给出清晰易懂的回答。

当检索到的信息结构化地返回后，我们需要一个模型来“润色”回答，让内容更口语化、亲和力强，符合医疗场景的语气。这里我们用了中等能力的大模型（不是参数最多的那种），但做了精细的Prompt设计，以保证回复内容“准确、简洁、友好”。

[4]安全审查模型→确保内容不出风险。

医疗是高度敏感的场景，模型不能乱推荐、不能瞎猜、不能打擦边球，因此还需要做内容过滤+安全规则审查。这部分模型必须加多重兜底机制，比如关键词过滤、白名单、灰度控制等。

所以，我们的Agent产品不是“塞一个大模型进去让它全盘接管”，而是我们作为指挥官，让对的模型，在对的节点，做对的事。

5.数据集和测评体系是落地Agent的生命线

在我们最初上线时，其实并没有投入太多时间在“测评体系”上。我们以为只要大模型能答对几个典型问题，效果就差不到哪儿去。

但事实是：我们踩坑了。

我们遇到过很多“看起来答了，其实没答对”的问题，细看背后，其实都是缺乏测评集覆盖导致的，例如：

用户问：“我胸闷3天了现在一直咳嗽怎么办？”

模型答：“建议拨打医院电话咨询”。

分析：这属于意图理解正确，但模型选择了保守拒答且回答冰冷，说明缺少SFT微调+人文关怀+兜底机制。

用户问：“我嗓子痛，顺便能打HPV疫苗吗？”

模型答：“建议您挂耳鼻喉科。”

分析：这属于用户有多个意图，但只回答了一个，说明模型缺乏多意图识别能力或缺少“主次信息判断”的机制。

后来我们意识到，必须建立系统性的测评方式：

[1]构建测评集。覆盖所有核心意图类型（症状问科室、问服务、问科普等）。

[2]拆分维度测评。每种意图下的问法要覆盖“规范问法”、“模糊问法”、“口语问法”、“单轮询问”、“多轮询问”等，甚至区分患者是老年、中年，还是儿童。

[3]精细标注预期输出。区分“正确/不完整/错位/胡编/拒答”等级。

[4]对错误做归因。到底是识别问题？检索不到？提示词没写好？语料覆盖不足？

有了这些系统测评，我们才能让模型从“能答”走向了“答得对、答得稳”。

6.医疗场景一定要SFT，否则风险不可控

在通用大模型性能强大的今天，我们一开始也有幻想：“模型已经很强了，说不定不用调教也能答得不错？”但当我们真正把Agent放进医疗场景里，才意识到：医疗，不是“说得像”，而是“必须对”。

不做SFT（SupervisedFine-Tuning，监督微调）会遇到什么问题？

模型会推荐医院根本没有的科室，因为它从互联网上“想当然地胡编”；

患者说“我孕早期肚子痛”，它说“挂消化内科”，忽略了风险词“孕”；

模型偶尔输出“我建议您做××手术”，这是医疗禁区，普通模型完全没边界感。

这类问题极具隐蔽性，在Demo阶段也许看不出来，一旦上线就可能出医疗事故式舆情。所以我们后来做了什么？

自建了医疗问答数据集，人工标注+精调；

建立高风险关键词库，联合内容安全模型做多层过滤；

所有生成都限定在“回答服务信息+推荐问诊挂号”这类低风险任务内；

做多轮灰度测试，确保模型“宁愿不答，也不硬答”。

这次Agent项目，我最大的体会有两点：

第一，哪怕是做AI的产品经理，最重要的依然是，找到真实的用户需求。

不是卷模型参数、不是堆复杂框架，而是踏踏实实地观察用户、理解问题、验证需求。

第二，我彻底放下了对“大模型”的盲目崇拜。

AI不是魔法棒，它只是一个强大的工具。真正让产品落地的，从来都是：

真实的用户调研

系统的数据测评

一次次“答错了为什么”的复盘

守望者xa发布网,提供守望者xa发布信息,第一时间发布列表及资讯,守望者下是守望者下首选资讯平台。