科学问答AI哪家强？ OpenAI o3夺冠 DeepSeek-R1紧随其后 - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 19:19:54

科学问答AI哪家强？ OpenAI o3夺冠 DeepSeek-R1紧随其后

发布日期:2025-07-11 12:19:45 稿源：网易科技

美国人工智能（AI）巨头OpenAI打造的AI模型o3，在艾伦人工智能研究所（Ai2）上周发布的基准测试平台SciArena中被评为回答多领域科学问题的最佳工具。该平台依据102名研究人员对答案质量的投票结果，对23个大型语言模型（LLM）在科学问答中的表现进行了排名。

OpenAI的o3在自然科学、医疗保健、工程学及人文与社会科学领域的回答表现最优，获得超13，000票支持。中国开源模型DeepSeek-R1在自然科学中排名第二，工程学中位列第四；Google的Gemini-2.5-Pro在自然科学中排名第三，工程学和医疗保健中排名第五。

Ai2指出，o3的优势在于其详细引用文献并提供技术细节丰富的回答，但模型表现差异可能部分源于训练数据和优化目标等方面的不同。

SciArena是首批通过众包反馈对科学任务表现进行排名的平台之一，其设计避免了分数操纵等问题。用户可免费使用该平台提问，系统随机提供两个模型的答案并邀请投票，但仅认证用户的投票计入排行榜。平台通过Semantic Scholar提供参考文献，以增强答案的参考性。

悉尼大学的研究人员认为，SciArena有助于研究者跟进前沿文献，并推动AI模型创新，但其可持续性依赖用户参与度。最后，研究者提醒，大型语言模型的回答可能存在与文献冲突、术语误解或准确性不足的问题，其生成内容不能替代原文阅读研究论文。

查看网友评论返回完整版观看

最新资讯

加载中...

索尼赶走老玩家调查显示45%PS用户因弃碟考虑转投PC

任天堂两款《塞尔达》经典大作疑同步开发中《梅祖拉的假面 HD》曝光

Steam玩家嘲笑PS玩家：实体盘闹麻了完全不需要！

马斯克态度大变称看错Anthropic：不会因竞争拔服务器

中国移动推出新消息Claw：短信操控电脑端龙虾无需额外下载App

美众院下周表决永久实施夏令时间法案

Google发布JavaScript库LiteRT.js 加快浏览器中的AI和机器学习运行速度

OpenAI宣布GPT-5.6成为微软Copilot 365首选模型回应双方合作破裂传闻

微软详解三类 Windows 更新：安全补丁、可选预览与紧急修复

贝索斯首次太空旅行同行者 “史上最老女宇航员”去世享年87岁

OpenAI高层动荡：Fidji Simo卸任“二号人物”转任顾问

今日最热

加载中...

马斯克态度大变称看错Anthropic：不会因竞争拔服务器

OpenAI发布GPT-5.6系列模型：性能全面超越Claude 价格最低仅为竞品十六分之一

男子利用Grok生成数千张继女不雅照后自杀 X平台被指阻碍调查

哈兰德回乡必吃中餐老板曝他最爱吃糖醋鸡

OpenAI推出GPT‑5.6 Sol、Terra与Luna全新模型家族

美众院下周表决永久实施夏令时间法案

SpaceX与AI公司排队造富一个行业意外先被新贵们带火了

NVIDIA亲手打造算力市场如今公司却遭遇高昂成本带来的回旋镖

OpenAI宣布停运Atlas 转而深耕浏览器AI集成战略

宇树G1被送进手术室完成全球首例机器人活体外科手术

OpenAI宣布GPT-5.6成为微软Copilot 365首选模型回应双方合作破裂传闻

返回上一页首页 | cnbeta报时: 19:19:54

文字版标准版电脑端

© 2003-2026