开云体育
开云体育全球首个科研LLM竞技场上线夺冠DeepSeek第四
【新智元导读】最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。
ZIPDO 2025教育报告显示,AI已经无缝融入70%的研究实验室,并在五年内推动相关科研论文数量增长了150%。
传统benchmark静态且片面,难以衡量科研任务所需的上下文理解与推理能力。
为此,Ai2联合耶鲁大学和纽约大学推出了科研界的Chatbot Arena——SciArena,正式开启科学智能的「擂台赛」时代!
其中,OpenAI o3断崖式领先,坐上了科学任务的头把交椅,在所有科学领域都稳居第一,输出的论文讲解也更有技术含量。
值得一提的是,SciArena刚发布没多久就得到了Nature的特别报道,并被盛赞为「解释大模型知识结构的新窗口」。
下面我们就来看看,评估基础模型科研能力,SciArena究竟靠谱在哪里?
SciArena是首个专为科学文献任务量身定制的大模型「开放式评估平台」。
在这里,科研人员可以对不同基础模型处理科学文献任务的表现进行比较和投票。
团队引入了Chatbot Arena式的众包、匿名、双盲对决机制,用真实科研问题来验货大模型。
SciArena专门针对科学探究的复杂性与开放性进行了优化,解决通用基准测试在科研场景中「失效」的问题。
SciArena平台: 科研人员在此提交问题,并「同台对比」查看不同基础模型的回复,选出自己更偏好的输出。
排行榜: 平台采用Elo评分系统对各大模型进行动态排名,从而提供一份实时更新的性能评估报告。
SciArena-Eval: 基于SciArena平台收集的人类偏好数据构建的元评估基准集,其核心目标是检验用模型来猜测人类偏好的准确性。
SciArena的工作流程包括检索论文、调用模型回复、用户评估三个环节。
为了确保检索信息的质量与相关性,团队改编了Allen Institute for AI的Scholar QA系统,搭建了一套先进的多阶段检索流水线。
随后,平台把上下文和用户的问题合在一起,同时发送给两个随机选择的基础模型。
平台会统一处理两份回复,变成格式一致的标准化纯文本,以免用户「认出」模型的回答风格。
值得注意的是,SciArena的注意力主要集中于可横向评估的「通用基础模型」。
至于OpenAI Deep Research等定制型智能体或闭源研究系统,则不在平台的考虑范畴内。
在平台上线的前四个月里,他们收集了不同科研领域的102位专家的13000多次投票。
这102位专家绝非随意参与的路人,而是科研一线的在读研究生,人均手握两篇以上论文。
在SciArena的高标准和严要求下,平台的标注数据自我一致性极高(加权科恩系数κ=0.91),标注者间一致性也达到了较高水平(κ=0.76)。
在SciArena平台上,研究团队基于元评估基本集SciArena-Eval,测试了「模型评模型」的自动评估方法:
给一个评估模型一条科研问题和两个模型的回答,让它猜哪个更可能被人类选中。
哪怕是表现最好的o3模型,准确率也只有65.1%,而像Gemini-2.5-Flash和LLaMA-4系列,几乎跟「掷硬币选答案」的准确率差不多。
对比一下通用领域,像AlpacaEval、WildChat这些基准的评估模型,准确率都能跑到70%以上,相比之下,科研任务显得难多了。
研究团队表示,SciArena-Eval未来有望成为科研AI评估的「新标准」。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。