欢迎访问《别有病》网站

bybcn
别有病首页>>原创>> 本站>> 问诊好伴AI 测试AI幻觉

问诊好伴AI 测试AI幻觉

byb.cn
[本站] 作者 :XJ 日期:2026-3-12 00:01

    【byb.cn XJ】上周,我曾经写了一篇文章《元宝千问豆包看CT片哪家强?》的文章,受到网友们的关注。文中,我用两张我自己颈动脉CTA的对比图来发问,测试了上述三款APP,结果,元宝有点放飞自我,在不了解全面情况的状态下,强行给出了我做过手术的答案,甚至说在片中看到了网状金属结构这么肯定的结论,令人捧腹大笑.....,而事实上,我根本就没做过手术,两张图像之所以会发生变化,完全是靠药物控制的结果,而AI之所以给出我做过手术这种结论经,这就是典型的“AI幻觉”,我们今天就来讨论这个问题。

  在这里,咱们先有必要科普一下什么是AI幻觉?AI幻觉,是指大语言模型编造它认为是真实存在的甚至看起来合理或可信的信息。 简而言之就是AI在“胡说八道”。 模型生成的内容与现实世界事实或用户输入不一致的现象。那么,这种情况,在医疗问诊时就比较麻烦了,有时会给用户完全错误的结果,让人对它的信任度大打折扣,下次再用的可能性就少了很多。


byb.cn

byb.cn


  最近这几天,我在刷手机时,看到了一博主(哈佛老徐抓AI趋势)介绍一款名为“好伴AI”的医疗问诊APP(小程序同名,且账号资料共享),它不像前面我们介绍的那三款知名度很高的通用人工智能(AGI)这种跨领域啥都能干的多面手,而是在医疗这一特定领域里的专家,很多医院的医生都用它,而我们普通用户反而知道的很少,像我这种专注健康领域10多年的准业内人士也才知道。然而,我用同样的问题和好伴AI聊了聊,感觉它确实像是在与一位真人对话。在它不完全掌握你的基本情况时,绝对不擅自给结论,而是要求你进一步补充资料,也就是说,它没有那么明显的“AI幻觉”,大家不妨看看我与它的对话。

byb.cn


  大家看我画的红框没有,也就是说好伴看到了变化,但它并没有马上下结论,只是表示“说明可能采取了有效的干预措施”,这个结论,非常准确和严谨,进而让我补充的第一个信息就是,我有没有服药,这简直就是问到点子上了,并且明确了“他汀类降脂药、抗血小板药”,这简直就是人类专业医生的回答,我给它点赞。这一下子激起了我的兴趣,然后就接着聊。


  虽然它有让我惊喜的地方,但也出现了非常明显的低级错误,因为它把我的病变位置搞反了,我是左侧,它却说成了右侧,既然让我补充,那就先纠正它的错误,看他如何回答:

byb.cn

byb.cn

  既然它认可了错误,说明态度还是不错的。不过,我用同样问题问过千问,千问就没出现这样位置搞反的“低级错误”,下面咱们继续聊。

byb.cn


byb.cn


  由于我给了它肯定的结论,此时它也有点放飞自我了,表现在“逆转斑块”的回答中是这样说的:“研究显示,使用他汀3个月后,颈动脉斑块的脂质核心即可缩小(如瑞舒伐他汀治疗3个月后脂质核心平均下降7.3%)这与您两次检查时间间隙高度吻合

  我就服了,明明它已经把我两张图片的拍摄时间给准确标记出来了,分别是2024年11月19日和2024年12月11日,这时它回答的时间间隔成反而变成3个月了?三周还差不多,不过,我也没打算纠正它的错误了,这肯定也属于“AI幻觉”范畴,这和它把我的图片看反了类似。

      不过,下面才是这次问答的最关键的点,我就是想让它看看我这个斑块的性质,是否是“动脉瘤”或“夹层”,因为A医院和C医院的CTA报告上,都显示有这种可能,我就是想看看好伴的能力如何,好在它给了我比较满意的答案。

byb.cn

byb.cn

byb.cn

  开头红框的结论,明确否定了动脉瘤和夹层的可能,认为只是动脉粥样硬化所致的狭窄,就这一结论,比大多数医院的医生水平高多了。同时,针对,我是否要手术的问题上,在结尾处,它让我补充诊断的“狭窄率”,这个一看,也是诊疗指南所要求的。
byb.cn

byb.cn

byb.cn

  在这一轮问答中,我想要的最关键答案“溃疡性斑块”始终没有出现在它的回答中,只是说,从不稳定变成了稳定,其实这只是结果,而非原因。也就是说,是什么原因导致的从不稳定变成了稳定?当然不只是他汀的作用,咱们再看下一轮,最终当我点破了谜底之后,它是如何回答的?

byb.cn

byb.cn

  在这一轮回答中,好伴AI的回答显得有些中规中矩,没有太多出彩的地方。它只是解释了什么是溃疡性斑块,并且药物是如何让易损的变成稳定的。但并没有说明为什么在短短三周的时间(好伴给算成三个月了),会有这么明显的变化,其实,这绝对不单单是药物起的作用,而是这个大溃疡斑块破了,里边的“饺子馅掉出来了”(这是B医院B医生的最终最权威的结论),好在我通过同时服用阿司匹林,把有可能发生的血栓给抑制住了,才没有发生TIA和脑梗。不过,你指望AI能回答出线下权威医生的最终结论,也有点难为它了。


  总结一下,好伴AI,作为医疗垂直类的专业AI工具,总体回答还是比较严谨的,并且是递进性质的,就是说一步一步获取信息,然后再一步步回答,很少会在不了解情况的时候放飞自我出现AI幻觉,这点做的还是不错的。尤其是它明确否定了A和C医院的动脉瘤和动脉夹层的结论,还是让我有点刮目相看,也正因为如此,我给它打了85分(虽然它没有回答出溃疡性斑块这个词)。

  另外,它之所以能回答这么准确,和事先你的注册信息有关,就是你的性别和年龄。当你咨询的问题时,它会关联是否是你本人,还是其他人,这非常重要。比如,我今天同时问了元宝几个问题,包括我本人,还有老婆、孩子,结果,元宝把它统统混在一起回答了,当我指出它的错误时,元宝也感觉很无辜。但这种情况绝对不会在好伴上发生。

  总之,现在通用人工智能AGI发展很多,竞争很激烈,我手机上就有5~6个APP,但常用的也就1~2个,其它的只是偶尔用。因此,相比较,像这种医疗垂直领域里的AI,用起来就更得心应手了,大家不妨试试,小程序和APP,都叫“好伴AI”。

byb.cn

搜索