网页编程众测排名：DeepSeek-R1超越Claude 4加冕全球第一

编程王者Claude地位不稳了？？大模型竞技场最新战报出炉，DeepSeek新版R1拿下网页编程第一，小胜Claude Opus 4。要知道Claude Opus 4可是公认的“全球最强编码模型”。

so，能在编程上战胜Claude Opus 4，DeepSeek-R1-0528到底啥来头？

看名字你可能以为是个小版本更新，但实际上——

它在LiveCodeBench上几乎与OpenAI o3-high相当，乃至一众网友猜测其为传说中的R2。

这样一看，在编程这一项上，双方貌似都不太好惹~

所以话不多说，咱们还是一手实测DeepSeek-R1-0528，康康究竟有多强。

实测一下

目前DeepSeek-R1-0528已上线DeepSeek官方网站、App和小程序（打开深度思考）。

这里咱们直接进入官网体验。

测试1：制作一个太阳系的动画应用程序

提示词如下：

制作一个太阳系的动画应用程序，使用网络搜索。

仅思考49秒后，DeepSeek-R1-0528就给出了一段python代码。

用VS Code运行后，结果如下：

出现了能自主运行的动画，不过页面相对粗糙。

不过呢，如果换成其他提示词，效果则明显不一样了。

用Three.js模拟太阳系，鼠标悬停在星球上时显示星球名称。

仅用时34秒，DeepSeek-R1-0528就理清楚了设计思路：

关键是这一次能直接一键运行了，无需再单独打开自己的编辑器。（运行功能感觉像开盲盒，不一定都会出现）

而且同样有动画、能交互，效果直接进入Next Nevel~

测试2：前端网页制作

接下来我们要求DeepSeek生成一个主题为AGI的网站，提示词如下：

请设计一个以通用人工智能（AGI）为主题的网页，包含“知识共享”、“社区”和“未来创造”三个概念部分。每个部分应配有相应的图标和简洁描述，整体风格现代且科技感十足，突出AGI的创新和协作精神。使用HTML、CSS和JavaScript实现交互和视觉特效。

思考23秒后，DeepSeek-R1-0528后续给出了一段HTML代码，依旧能一键运行。

测试3：创建一个俄罗斯方块小游戏

最后我们试试英文提示词：

Create a full featured version of tetris with beautiful graphics and controls.
创建一个具有精美图形和控制功能的完整版俄罗斯方块。

可以看到，DeepSeek-R1-0528思考12秒后就给出了一段python代码。

运行结果be like：

虽然确实是俄罗斯方块小游戏，但基本演示存在明显bug，而且缺少交互按钮。

不死心的我们尝试让DeepSeek继续改进，结果第二次还是翻车了。

改进后的游戏依旧无法正常运行（总是穿墙而过），且未实现我们明确要求的交互功能。

小结一下，从以上简单实测来看，DeepSeek新版R1作为一款开源模型，在编程能力上确实大有进步，但仍有一定提升空间。

不过有一说一，它对咱们国内普通用户明显更友好（相对Claude模型来说免费又易于获取）。

One More Thing

除了编程能力榜单更新，DeepSeek新版R1还当选了当前最好的开源文本模型。

MIT许可证下，总榜第六，开源当中第一。

而在细分领域，它在困难提示方面排名第4，在数学方面排名第5，属于开源模型中相当能打的玩家。

不过值得一提的是，Kimi新模型刚刚拿下代码开源SOTA——

参数量仅72B的开源代码模型Kimi-Dev，在SWE-bench Verified上以60.4%的成绩取得开源SOTA。

不仅编程水平比最新的DeepSeek-R1还强，和闭源模型比较也表现优异。

不知道其真实能力又如何呢（doge）~