ChatGPT机器人在胃肠学考试中不及格 ChatGPT是一种受欢迎的人工智能语言处理模型,在最近的一项研究中,它在胃肠学自我评估测试中多次失败。 ChatGPT的3和4版本在美国胃肠学学院(ACG)自我评估测试中分别只得到了65%和62%的分数,而最低及格分数是70%。 阿尔文德·J·特林达德(Arvind J. Trindade)医学博士 “你可能会期望一位医生的分数是99%,或者至少是95%”,主要作者、纽约纽海德公园Northwell Health(中部区域)内镜检查区域主任阿尔文德·J·
ChatGPT,一种流行的人工智能语言处理模型,在最近的一项研究中多次未能通过胃肠学自我评估测试。
在美国胃肠学学院(ACG)自我评估测试中,ChatGPT的第三和第四个版本分别只得到了65%和62%的分数。及格分数是70%。
阿尔文德·J·特林德(Arvind J. Trindade)医学博士
“你可能期望一个医生得到99%,或者至少95%的分数,”主要作者、纽约纽海德公园Northwell健康中心区域内窥镜主任阿尔文德·J·特林德(Arvind J. Trindade)医学博士在接受Medscape Medical News采访时说。
该研究于5月22日在线发表在《美国胃肠病学杂志》上。
特林德和同事们在越来越多的报告中进行了这项研究,这些报告指出学生在许多学术领域,包括法律和医学,使用了这个工具,并对该聊天机器人在医学教育中的潜力越来越感兴趣。
“我看到胃肠学的学生在上面输入问题。我想知道它在胃肠学中的准确性——它是否将被用于医学教育和患者护理,”特林德说,他还是纽约曼哈塞特费恩斯坦医学研究所的副教授。“根据我们的研究,ChatGPT目前不应在胃肠学的医学教育中使用,并且在应用于医疗领域之前还有很长的路要走。”
表现不佳
研究人员将ChatGPT的两个版本分别应用于2021年和2022年的在线ACG自我评估测试上,该测试是一项多项选择考试,旨在评估学员在美国内科医学胃肠学委员会考试中的表现。
涉及图像选择的问题被排除在研究之外。对于剩下的问题,将问题和选项直接粘贴到ChatGPT中,然后返回答案和解释。根据聊天机器人的回答,在ACG网站上选择相应的答案。
在提出的455个问题中,ChatGPT-3正确回答了296个问题,ChatGPT-4则回答了284个问题。聊天机器人回答错误的问题没有明显的模式,但在各种疾病状态的监测时间、诊断和药物方案等问题上都回答错误。
研究人员写道,该工具表现不佳的原因可能在于支撑ChatGPT的大型语言模型。该模型是通过自由提供的信息进行训练的,而不是针对医学文献或需要付费订阅的材料,目的是成为通用的交互式程序。
用户的评价 浏览量:
507
次 | 评论:0
条 | 好评:0
其他疾病相关文章
其他疾病文章