清华团队构建A版主题医院，14位A医生诊疗近万人，准确率达93%

admin 2024-09-19 10:10:05

如果你跟我一样，在二十年前就是一名单机游戏爱好者的话，有一款神作你一定玩过，那就是《主题医院》。这也是很多游戏爱好者第一次玩经营模拟类游戏。到今天，游戏里的那句经典台词，还经常回响在我的脑海里，“不要让你的病人死在走廊上。

去年，斯坦福和谷歌合作过一个斯坦福小镇的项目，这个小镇上是由25个智能体角色组成，他们每个人都有自己的人格、工作、情感和社交，有些人晚上会结伴喝酒，有些人会去咖啡馆看书，彼此之间还会聊八卦、求婚和谈恋爱。这和《模拟人生》这样的游戏不一样的地方是，电子游戏里的很多角色和发展，都是提前写好的脚本。而斯坦福小镇上的互动，则是A大模型自己发展的结果。

今年五月，清华大学智能产业研究院和计算机系一起合作，构建了一个“虚拟医院的项目，相当于全球第一个A医院小镇，在这个虚拟世界里，所有的医生、护士和患者角色都是由A在后面驱动的，可以自主交互，模拟真实世界看病的全过程，包括分诊、挂号、咨询、检查、诊断、治疗和回访等环节。

我在A的帮助下，看了他们的这篇论文，当然，主要集中在那些能看懂的段落里。我跟大家分享下论文里的一些有意思的细节。

首先这里面最核心的技术叫作“MedAgent -zero的策略，就是在没有人工标注数据的情况下，通过模拟医生和患者之间的互动来训练医生的医术。你肯定会好奇怎么判断AI医生的决策是否正确呢？

我简单说一下流程，首先AI会自动生成一个病人角色和病情病历，这些症状都是从现实的数据中学习生成的。然后AI医生根据具体病情，做出诊断和治疗方案。然后检查它的决策是否正确，先对比数据库里已知的真实病人情况，如果和正确答案一致，那就是决策正确。如果不一致，就要记录这次治疗情况，然后A进行分析和反思，形成经验教训。例如论文里就有一个AI病人，症状是持续两周的干咳、喉咙不适。AI医生先执行检查的任务，初步判断是跟呼吸功能或者血液有关，要先做血液检查。这时需要执行一个判断，去检索最相关的三个真实病情案例，发现真实人类医生在这步也都是需要做血液检查。所以这步AI医生决策正确。

下一阶段是诊断，AI医生根据症状和血液检查的结果，初步判定为急性鼻咽炎。这时再去搜索经验库和三个最相关的病例，发现在这种情况，人类医生一般会判断为慢性支气管炎。这时就判断为A医生初步诊断失败，作为经验进入经验库，反思为什么会出错。

最后通过这种不断地看病、治病、学习和反思，就可以让A医生在没有人工标注的情况下，不断地学习和提高自己的能力。

整个A医院里，一共有14名AI医生，有4个AI护士，然后会有很多居民角色，会不定期转成AI病人。AI医生主要负责诊断和治疗病人，而AI护士主要是用来分诊和帮助医生管理患者，从这个人数设定你也可以看出，护士的工作量确实大得惊人，哪怕是在AI医院里，AI护士也总是不够用。

总结：这套系统运转起来最大的优势就是数据量大，能快速进化。因为我们知道AI类的产品，只要有足够的数据喂养，就能飞速成长。普通真实世界的医生，估计要好几年才能看一万名病人，但是在这个系统里的A医生，几天内就要看一万名病人，24小时不停不歇。并且AI医生在主要的呼吸系统疾病方面，诊断准确率已经达到了93.06%。

据项目组介绍，这套系统有望在2024的下半年进入一些合作的医科大学，在科研或者真实的医院场景里，充分进行测试和优化。这套系统如果按照这种速度进化，其实会在不少场景发挥大用处，例如病情的初步咨询与分诊。如果前期觉得直接进医院风险大的话，可以在医学生中，每天进行互搏训练，相当于AI和医学生一起进化。

不足之处：当然，在我看来，这个项目也还有一些局限性，首先构建所有角色用的大模型是GPT-3.5,这个底层模型的能力，就会限制A医生处理那些相对复杂的病情，不知道选择3.5，是不是因为学校的研究团队需要省钱才没有用最好的模型。

奇思妙想：另外在整个角色构建中，缺少医闹的A角色，这对A医生的考验不够充分，那才是真实世界的挑战。

笔者用 kimi 读取了论文，总结 AI 医院运作流程图如下：