文心一言数学和中文理解能力全球第几？清华最新报告出炉 - cnBeta.COM 移动版(WAP)

返回上一页首页 | cnbeta报时: 01:15:40

文心一言数学和中文理解能力全球第几？清华最新报告出炉

发布日期:2024-04-21 23:42:37 稿源：凤凰网科技

4月21日，由清华大学基础模型研究中心联合中关村实验室研制的SuperBench大模型综合能力评测框架，正式对外发布2024年3月版《SuperBench大模型综合能力评测报告》，结果显示：文心一言4.0表现亮眼，与国际一流模型水平接近，且差距已经逐渐缩小。

在人类对齐能力评测中，文心一言4.0位居国内第一；中文理解上，文心一言4.0领先第二名GLM-4 0.41分，GPT-4系列模型表现较差，和文心一言4.0分差超过1分。

在语义理解中的数学能力上，文心一言4.0与Claude-3并列全球第一； GPT-4系列模型位列第四五，其他模型得分在55分附近较为集中；在语义理解中的阅读理解能力上，文心一言4.0超过GPT-4 Turbo、Claude-3以及GLM-4拿下榜首。

在安全性评测上，国内模型文心一言4.0拿下最高分（89.1分），Claude-3仅列第四。

据悉，自文心一言首发至今，用户数已突破2亿。

查看网友评论返回完整版观看

最新资讯

加载中...

在美国限制AI访问权限后奥地利敦促欧洲引入Anthropic

内存短缺对苹果和微软造成冲击但对小型企业而言堪称“生存危机”

Xbox突然冻结Game Pass新签约烧钱抢首发的时代结束了？

检方在洛杉矶山火案中使用ChatGPT聊天记录作证然而未能打动陪审团

苹果被迫提前放弃2nm制程抢占1.4nm产能以应对AI行业“挤兑”

预计苹果今年发布M5 Ultra版Mac Studio 2028年再推M7 Ultra

Linux 7.2内核源码行数突破4300万行

常用农药改变大黄蜂基因威胁其授粉能力

科学家高精度重建视觉场景将鼠脑活动转化成电影

数字时代？PlayStation正从用户账户中删除500部已购电影

苹果 MacBook Pro 经销商被曝擅自向已付款订单加价

今日最热

加载中...

一颗8GB DRAM从35美元涨到300美元

英国车主拿中国名爵电动车救急一根软管让屋子共享汽车空调

“背刺用户”上热搜，WPS称7月开放安装路径自定义

被全网痛骂的果葡糖浆其实比窦娥还冤？

央视曝数码测评潜规则：特供样机、固件作弊、云端调控

苹果 MacBook Pro 经销商被曝擅自向已付款订单加价

“后室”虚拟空间成新型“暗黑旅游”目的地

伦敦车主若停车使用汽车空调来降温最高可被罚款110英镑

杰富瑞警告：存储器价格今年三季度涨幅或达 50% 四季度再涨 40%

特斯拉也要有主动悬架了最新专利能提前“避坑”

Anthropic最新报告摸透全球打工人：凌晨5点求睡眠，晚6点问菜谱

返回上一页首页 | cnbeta报时: 01:15:40

文字版标准版电脑端

© 2003-2026