ChatGPT机器人在胃肠学考试中不及格 ChatGPT是一种受欢迎的人工智能语言处理模型，在最近的一项研究中，它在胃肠学自我评估测试中多次失败。 ChatGPT的3和4版本在美国胃肠学学院（ACG）自我评估测试中分别只得到了65%和62%的分数，而最低及格分数是70%。阿尔文德·J·特林达德（Arvind J. Trindade）医学博士 “你可能会期望一位医生的分数是99%，或者至少是95%”，主要作者、纽约纽海德公园Northwell Health（中部区域）内镜检查区域主任阿尔文德·J·_健趣网_健康去哪儿

ChatGPT机器人在胃肠学考试中不及格 ChatGPT是一种受欢迎的人工智能语言处理模型，在最近的一项研究中，它在胃肠学自我评估测试中多次失败。 ChatGPT的3和4版本在美国胃肠学学院（ACG）自我评估测试中分别只得到了65%和62%的分数，而最低及格分数是70%。阿尔文德·J·特林达德（Arvind J. Trindade）医学博士 “你可能会期望一位医生的分数是99%，或者至少是95%”，主要作者、纽约纽海德公园Northwell Health（中部区域）内镜检查区域主任阿尔文德·J·

www.patfun.com首发转载注明作者：苏炎发布日期：2023-08-21 20:27:52 浏览次数：509 标签：其他疾病

ChatGPT，一种流行的人工智能语言处理模型，在最近的一项研究中多次未能通过胃肠学自我评估测试。

在美国胃肠学学院（ACG）自我评估测试中，ChatGPT的第三和第四个版本分别只得到了65％和62％的分数。及格分数是70％。

阿尔文德·J·特林德（Arvind J. Trindade）医学博士

“你可能期望一个医生得到99％，或者至少95％的分数，”主要作者、纽约纽海德公园Northwell健康中心区域内窥镜主任阿尔文德·J·特林德（Arvind J. Trindade）医学博士在接受Medscape Medical News采访时说。

该研究于5月22日在线发表在《美国胃肠病学杂志》上。

特林德和同事们在越来越多的报告中进行了这项研究，这些报告指出学生在许多学术领域，包括法律和医学，使用了这个工具，并对该聊天机器人在医学教育中的潜力越来越感兴趣。

“我看到胃肠学的学生在上面输入问题。我想知道它在胃肠学中的准确性——它是否将被用于医学教育和患者护理，”特林德说，他还是纽约曼哈塞特费恩斯坦医学研究所的副教授。“根据我们的研究，ChatGPT目前不应在胃肠学的医学教育中使用，并且在应用于医疗领域之前还有很长的路要走。”

表现不佳

研究人员将ChatGPT的两个版本分别应用于2021年和2022年的在线ACG自我评估测试上，该测试是一项多项选择考试，旨在评估学员在美国内科医学胃肠学委员会考试中的表现。

涉及图像选择的问题被排除在研究之外。对于剩下的问题，将问题和选项直接粘贴到ChatGPT中，然后返回答案和解释。根据聊天机器人的回答，在ACG网站上选择相应的答案。

在提出的455个问题中，ChatGPT-3正确回答了296个问题，ChatGPT-4则回答了284个问题。聊天机器人回答错误的问题没有明显的模式，但在各种疾病状态的监测时间、诊断和药物方案等问题上都回答错误。

研究人员写道，该工具表现不佳的原因可能在于支撑ChatGPT的大型语言模型。该模型是通过自由提供的信息进行训练的，而不是针对医学文献或需要付费订阅的材料，目的是成为通用的交互式程序。

用户的评价浏览量：

509

次 | 评论：

条 | 好评：

其他疾病相关文章

其他疾病文章

我要点评：	好评(有用) 差评(没用)
评价内容：
	10~500个字