拼搏

拼搏

清华团队构建A版主题医院,14位A医生诊疗近万人,准确率达93%

admin
清华团队构建A版主题医院,14位A医生诊疗近万人,准确率达93%-第1张-游戏-拼搏

如果你跟我一样,在二十年前就是一名单机游戏爱好者的话,有一款神作你一定玩过,那就是《主题医院》。这也是很多游戏爱好者第一次玩经营模拟类游戏。到今天,游戏里的那句经典台词,还经常回响在我的脑海里,“不要让你的病人死在走廊上。

去年,斯坦福和谷歌合作过一个斯坦福小镇的项目,这个小镇上是由25个智能体角色组成,他们每个人都有自己的人格、工作、情感和社交,有些人晚上会结伴喝酒,有些人会去咖啡馆看书,彼此之间还会聊八卦、求婚和谈恋爱。这和《模拟人生》这样的游戏不一样的地方是,电子游戏里的很多角色和发展,都是提前写好的脚本。而斯坦福小镇上的互动,则是A大模型自己发展的结果。

今年五月,清华大学智能产业研究院和计算机系一起合作,构建了一个“虚拟医院的项目,相当于全球第一个A医院小镇,在这个虚拟世界里,所有的医生、护士和患者角色都是由A在后面驱动的,可以自主交互,模拟真实世界看病的全过程,包括分诊、挂号、咨询、检查、诊断、治疗和回访等环节。

我在A的帮助下,看了他们的这篇论文,当然,主要集中在那些能看懂的段落里。我跟大家分享下论文里的一些有意思的细节。

首先这里面最核心的技术叫作“MedAgent -zero的策略,就是在没有人工标注数据的情况下,通过模拟医生和患者之间的互动来训练医生的医术。你肯定会好奇怎么判断AI医生的决策是否正确呢?

我简单说一下流程,首先AI会自动生成一个病人角色和病情病历,这些症状都是从现实的数据中学习生成的。然后AI医生根据具体病情,做出诊断和治疗方案。然后检查它的决策是否正确,先对比数据库里已知的真实病人情况,如果和正确答案一致,那就是决策正确。如果不一致,就要记录这次治疗情况,然后A进行分析和反思,形成经验教训。例如论文里就有一个AI病人,症状是持续两周的干咳、喉咙不适。AI医生先执行检查的任务,初步判断是跟呼吸功能或者血液有关,要先做血液检查。这时需要执行一个判断,去检索最相关的三个真实病情案例,发现真实人类医生在这步也都是需要做血液检查。所以这步AI医生决策正确。

下一阶段是诊断,AI医生根据症状和血液检查的结果,初步判定为急性鼻咽炎。这时再去搜索经验库和三个最相关的病例,发现在这种情况,人类医生一般会判断为慢性支气管炎。这时就判断为A医生初步诊断失败,作为经验进入经验库,反思为什么会出错。

最后通过这种不断地看病、治病、学习和反思,就可以让A医生在没有人工标注的情况下,不断地学习和提高自己的能力。

整个A医院里,一共有14名AI医生,有4个AI护士,然后会有很多居民角色,会不定期转成AI病人。AI医生主要负责诊断和治疗病人,而AI护士主要是用来分诊和帮助医生管理患者,从这个人数设定你也可以看出,护士的工作量确实大得惊人,哪怕是在AI医院里,AI护士也总是不够用。

总结:这套系统运转起来最大的优势就是数据量大,能快速进化。因为我们知道AI类的产品,只要有足够的数据喂养,就能飞速成长。普通真实世界的医生,估计要好几年才能看一万名病人,但是在这个系统里的A医生,几天内就要看一万名病人,24小时不停不歇。并且AI医生在主要的呼吸系统疾病方面,诊断准确率已经达到了93.06%。

据项目组介绍,这套系统有望在2024的下半年进入一些合作的医科大学,在科研或者真实的医院场景里,充分进行测试和优化。这套系统如果按照这种速度进化,其实会在不少场景发挥大用处,例如病情的初步咨询与分诊。如果前期觉得直接进医院风险大的话,可以在医学生中,每天进行互搏训练,相当于AI和医学生一起进化。

不足之处:当然,在我看来,这个项目也还有一些局限性,首先构建所有角色用的大模型是GPT-3.5,这个底层模型的能力,就会限制A医生处理那些相对复杂的病情,不知道选择3.5,是不是因为学校的研究团队需要省钱才没有用最好的模型。

奇思妙想:另外在整个角色构建中,缺少医闹的A角色,这对A医生的考验不够充分,那才是真实世界的挑战。

笔者用 kimi 读取了论文,总结 AI 医院运作流程图如下:

标签 主题医院攻略病人