研究人员对ChatGPT和其他人工智能模型与现实世界的学生进行了测试

2024-09-19 12:16来源:本站编辑

medical student

医学博士威廉·赫什(William Hersh)在俄勒冈健康与科学大学(Oregon Health & Science University)教授了几代医学和临床信息学学生,他发现自己对人工智能日益增长的影响感到好奇。他想知道人工智能在他自己的课堂上会有什么表现。

所以,他决定做个实验。

他在他广受欢迎的生物医学和健康信息学入门课程的在线版本中测试了六种形式的生成式、大语言的人工智能模型,例如chatgpt,看看它们与活着的、有思维的学生相比表现如何。发表在《npj数字医学》杂志上的一项研究揭示了答案:比他四分之三的人类学生都要好。

“这确实引起了人们对作弊的担忧,但这里还有一个更大的问题,”赫什说。“我们怎么知道我们的学生实际上是在学习和掌握他们未来专业工作所需的知识和技能?”

作为OHSU医学院的医学信息学和临床流行病学教授,赫什对新技术尤其敏感。技术在教育中的作用并不是什么新鲜事,赫什回忆起他自己在20世纪70年代从计算尺过渡到计算器的高中生经历。

然而,向生成式人工智能的转变代表了一个指数级的飞跃。

“显然,每个人都应该在自己的领域有一定的基础知识,”赫什说。“你希望人们能够批判性思考的知识基础是什么?”

大型的语言模型

赫什和合著者凯特·富尔茨·霍利斯(Kate Fultz Hollis)是OHSU的信息学家,他们提取了2023年参加生物医学和健康信息学入门课程的139名学生的知识评估分数。他们用课程中的学生评估材料构建了六个生成式人工智能大型语言模型。根据模型的不同,人工智能在测验中使用的多项选择题和期末考试中需要简短书面回答的问题上得分在前50到75百分位之间。

作者写道:“这项研究的结果对大多数(如果不是全部的话)学科的学生评估提出了重要的问题。”

这项研究首次将大型语言模型与生物医学领域完整学术课程的学生进行了比较。赫什和富尔茨·霍利斯指出,与帮助学生发展更复杂技能和能力的参与性学术课程相比,像这样的知识型课程可能特别适合生成、大语言模型。

赫什回忆起他在医学院的经历。

“当我还是一名医学生的时候,我的一位主治医生告诉我,我需要把所有的知识都记在脑子里,”他说。即使在20世纪80年代,这也是一种奢望。医学知识库早已超过了人类大脑的记忆能力。”

保持人情味

然而,他认为在合理利用技术资源来促进学习和过度依赖到阻碍学习的程度之间有一条微妙的界限。最终,像OHSU这样的学术健康中心的目标是教育能够照顾患者并优化在现实世界中使用有关患者的数据和信息的医疗保健专业人员。

他说,从这个意义上说,医学将永远需要人类的接触。

他说:“医疗保健专业人员做的很多事情都很简单,但在某些情况下,事情会变得更复杂,你必须做出判断。”“这有助于你拥有更广阔的视野,而不一定需要把每一个事实都记在脑子里。”

秋季课程即将开始,赫什说他并不担心作弊。

“我每年都会更新课程,”他说。“在任何科学领域,总是有新的进展,大语言模型不一定是最新的。这意味着我们将不得不考虑更新或更细致的测试,在这些测试中,你无法从ChatGPT中得到答案。”

秋池网声明:未经许可,不得转载。