2019年6月21日,广州,某行业展会展出的应用在医疗领域的智能机器人。 (视觉中国/图)
它展现出了真人医生一样的问诊素养。
(资料图片仅供参考)
“您说的甲状腺结节四年前是怎么发现的?当时有什么症状?这四年来结节有没有变大或其它症状?您是否定期复查?最近一次复查什么时候?”
这些连珠炮似的提问,令从医十余年的李惠感到惊讶。因为提问来自一款医疗大语言模型(下称“大模型”)MedGPT,又称AI(人工智能)医生。李是一位肾内科副主任医师。
就在2023年6月底,李惠与9位来自心内科、消化内科、呼吸内科、内分泌科、肾脏内科、骨科、泌尿外科等科室的医生,联手挑战MedGPT。后者于2023年5月推出,号称国内首款医疗大模型。
这场在成都的一家医院举行的测试,也被业内誉为人类与AI在医学领域的一次公开比拼。
最终经过7位专家的评审,真人医生综合得分为7.5分,AI医生综合得分为7.2分。AI医生与三甲主治医生在比分结果上的一致性达到了96%。
考虑到大模型不断自我学习成长的能力,眼前的成果难免令人对AI医生的应用前景浮想联翩。据南方周末记者不完全统计,2023年5月以来,国内已至少有医联、商汤科技、京东健康、联影智能、上海联通等企业相继发布了医疗AI大模型。7月27日,谷歌亦发布全球首个全科医疗AI大模型Med-PaLM M。
不过,在医疗大模型投入应用前,从诊断的准确性和可解释性,到医疗数据的来源,再到AI医生与真人医生的关系,许多伦理问题仍待厘清。
医疗大模型亟须人机一致性测试
和大火的ChatGPT一样,MedGPT的界面也是一组简洁的对话框,可见对话与问答功能是其核心所在。在一则现场问诊视频中,患者与MedGPT、真人医生的对话气泡分别用蓝色和绿色表示。但即使不借助颜色,二者之间也有着显见的差别。
问诊中,病人自诉腰疼,AI会追问,左侧还是右侧?“如果是单侧疼痛,也有可能是肾周感染,但更要考虑结石或肿瘤。”李惠告诉南方周末记者,AI在不能查体的情况下,能通过对话弥补一部分差距。
从文本上看,人类医生的表述更加口语化也更简洁。MedGPT则透露着机器特有的耐心和客气。它的回复往往以“您好!感谢您的配合”开场,接着是长篇大段的解答,有时也会连续发问。
“问诊比较详细,它对于每个细节都很注重,作为临床医生的补充是非常有帮助的。”作为评委的北京阜外医院心内科主任医师杨跃进表示,“但详细有时候意味着重点不突出,有些问题就需要一查到底,未来还需要继续凝练。”
“我们没想到一致性得分会这么高,大家都很兴奋很满意。”互联网医疗企业医联MedGPT项目负责人王磊表示。
从最近层出不穷的新品发