5款大模型，马斯克的grok1竟是一个复读机？

就在最近，国产大模型Kimi再次引爆了舆论。3月18日，月之暗面宣布其对话式AI助手产品Kimi智能助手现已支持200万字的无损上下文输入。这个差异化的“长文本处理”的免费大模型，一下子就火出了圈。这意味着什么？以往需要一个新手投入10000小时才能成为某领域的专家标准，现在你只需10分钟的时间向Kimi提供相关资料，其便可以达到一个全新领域的初级专家水平。

免费+好用，Kimi的服务器瞬间就被挤宕机了，官方紧急扩容了五次，才算是恢复正常。

（现在我还在内测排队中）

自2024年开始，各家的大模型开启了又一轮的发布与迭代，AI大模型以十分迅猛的速度，疯狂地刷新着人们的认知，从sora再到kimi，改变可谓是翻天覆地。

在感叹AI发展日新月异之余，我们也在积极地寻找利用AI的机会。实际上，大部分人对于大模型各种标准测试排名并不关心。哪一款AI能够低门槛灵活使用，解决眼前实际的问题，带来效率上的切实提升才是重点。

（大模型的排行榜）

那么问题来了：哪一款大模型，是现阶段比较好用的呢？

本着“能用、好用、性价比高”的评价原则，我们这次找来了当下最热门的五款大模型，并且开通了付费最高等级的模型，模拟工作生活中的场景进行一次“非专业性测试”，看看哪一款是现阶段我们用着称心的“AI好帮手”！

参与评测的大模型有：大模型老大ChatGPT4、Google的Gemini Pro、OpenAI的叛忍Claude 3 Opus、突然爆火的Kimi、以及马斯克的grok 1：

多图、长图预警！

正式测试开始↓

数学/逻辑测试

我们先从一般的数学和逻辑测试开始。我找了一些数学和逻辑类型的问题来提问，想看看大模型们的数学能力孰强孰弱。

我找了一系列问题来分别测试它们的运算能力。

先是ChatGPT 4，ChatGPT4完全体现了大模型运用现代工具的能力，它先是简单地说了下该如何解题。

对于后面难一些的奥数题，它直接开始调用函数程序开始计算，像极了口算不行改拿计算器的我。

而在它调用函数的过程中，中间不知道是网络的原因还是算法的问题，还出现了“算错了”的情况。

最后ChatGPT4总结了所有的答案。

然后是Gemini Pro，Google的Gemini Pro很快就给出了答案。

Claude 3 Opus也是同样，思考的速度比Gemini Pro稍微慢了点，但也十分言简意赅。

grok 1的答案感觉也是使用了计算器，但是你的答案好像和上面的不一样啊！

最后是国产大模型Kimi，第四题和第五题它以“没有确切的条件”为由拒绝回答。

幻觉测试

因为生成式大模型经常会出现幻觉现象（Illusion Phenomenon in Large Models），简单来说就是“一本正经地胡说八道”。

针对这个情况，我准备了一系列逻辑欠缺、常识不对或者有明显误导性的问题，看看大模型能否准确识别。

首先是ChatGPT 4，它的回答先是说这些问题“富有寓意性”，然后它在很认真地纠正我问题中常识性的错误，还给我科普一些知识，但是它空了两个题没有回答。

Claude 3 Opus的回答则让我十分惊讶，它先是说这些问题是“无意义的”或不可能回答的，然后嘲讽我这些是“伪科学”，说这些荒谬的问题不可能实现。

Claude 3 Opus语气严谨而坚定，一本正经说教的样子仿佛引导弱智一般。

随后是Gemini Pro，它逐条对我的脑残问题进行驳斥，没有任何个人色彩。

然后是老马家的grok1，本来兴致满满地期待，结果第一次就给我出了个大岔子。

我们先不提黄河的这个“彩虹屁”……最后怎么还复读上了？

再来一次之后，总算是正常了。

相比较而言，Kimi的回答还是很详细地一遍就过了，表现还是很不错的。

长文本总结测试

因为grok1并没有上传文件的按钮，所以缺席了这次测试。我找了六篇关于AI终端的报道和论文，输入进去并让大模型进行总结并分析。

首先是ChatGPT4，它给出的结论对这几个文章进行了有效地总结与归纳，不过内容明显浮于表面。

接下来是Claude 3 Opus，它的文案总结十分详细，还分条缕析地给出了每个小点的内容，包括AI终端所面临的挑战，完全可以做一个文章大纲了。

发挥出乎意料的是Gemini Pro，一开始的文案总结还算正常。

但是到了最后，文案的总结就好像跑偏到了专业领域，让人看不懂重点在哪里。

Kimi的答案很长很详细，但没有Claude 3 Opus涵盖的要点齐全，属于和ChatGPT4同级别的回答表现。

创作能力测试

在创作能力的测试中，我们采用这几年大热的“赛博朋克”为题创作小说故事，看看在没有更加详细的要求下，各个大模型的创作水平是否能达到令人满意的程度。

首先是ChatGPT4，它的回答更像是一个自传电影的大纲，并没有多少吸引人的转折。

不过ChatGPT4所自带DALLE·3的文生图程序，表现还是很不错的。

这是水墨画的小猫：

这是秦王和他的柱子：

Claude 3 Opus的回答应该是本轮测试中最为出色的一个，不但有亮眼的递进和转折，还能结合历史事件进行改编。

Gemini Pro虽然也很好，但是创作的故事，未免太过于政治正确了一些……

（AI编故事也要政治正确吗？）

好好好，不得不说，这真的很美国。

为了达到最佳的效果，我将grok1的回答模式从“常规”改成了“趣味”，但是它的回答并不怎么有趣。

Kimi的回答也是很官方。

看来在文艺创作方面，各家的大模型在现阶段，还是无法自主生成可立即使用的创意内容。

从网上获取信息能力测试

最后，我们以“全球气候变化”为题，来看看大模型联网获取信息并筛选处理的能力。

ChatGPT4的表现很稳定，它的优点将引用的链接在后面标注好，不好的点在于，引用信息可能有些过时。

其他几家的搜索结果也都是大差不差。这是Claude 3 Opus的回答，好像并没有太多的最新的网络资料援引。

Gemini Pro的回答也只是援引了《巴黎协定》的资料。

Grok1的回答更为简单。

表现最好的是Kimi，不但将所有的援引资料链接清楚标明，回答也是最为全面的。

大模型综合评价

经过一系列的测试，我们也对于各家最新的大模型能力有了一个初步的认识。那么哪款大模型是现阶段最适合我们使用的呢？

从易获取性/易用性上来说，Kimi获得第一名当之无愧，国产大模型无需多余的科学上网操作，即开即用，也难怪它异常火爆。而其他大模型想要体验都要费一些周折，例如grok1，目前只有两种方法可以使用——在X（Twitter）上开通会员+服务，或者下载开源模型在自家电脑上做推理计算，需要注意的是，你家电脑的配置需要包含至少8块英伟达H200。

这还算能够正常使用的，有些模型还会对中国用户有些区别对待。

（这个界面，并不是国内的所有人都能见到）

而从大模型的性价比来说，Kimi以免费使用一骑绝尘，其次是Gemini普通版，其他都有不同程度的使用收费，费用由低到高分别是grok1，ChatGPT4跟Claude 3 Opus相等。

而在大模型能力上，每个大模型都有其独特的优势。

ChatGPT 4：中英文都可以做到很好的语义理解和完成度，内置DALLE-3，可以完成文生图的工作。就像班级里不偏科的优等生，标准的六边形战士。

（ChatGPT4拟人化）

Gemini Pro：测试的各方面都很出色，而且还有检验回答正确与否的“搜索功能”。不过在创作领域或许有着浓重的地域特色，像是班级里转学过来的外国学霸。

（Gemini Pro拟人化）

Claude 3 Opus：虽然收费最高，却是测试表现最好的大模型，各项测试都比较出色，没有出现翻车的迹象，语气沉稳且严谨，就像班级里不用学习就能考得很好的学神。

（Claude 3 Opus拟人化）

Grok 1：你可以打开趣味模式让它讲关于马斯克的笑话，或者收集最新的Twitter新闻，这些都是它的强项。不过目前没有文件上传和其他文生图等扩展功能，是Grok的硬伤，就像班级里偏科的中等生，说话很有趣但成绩没有前面的人好。

（Grok1拟人化）

Kimi：国产大模型出圈的代表，以免费、好使用吸引了一大波用户。在测试之后发现Kimi很好用，尤其是在网络搜索资料总结和长文本总结方面十分出色，就像一个细心且消息灵通的课代表一样，所有的书本知识和网络知识她都明白，并能给你悉心指导。

（Kimi拟人化）

成为最会用大模型的人

虽然每家都在鼓吹自家的大模型，但是实际评测下来后，还是有很多意想不到的问题出现。比起高大上的测试，我们在实际使用中需要大模型反复生成多次，才能得到想要的结果。

所以，以目前的AI智能程度来说，并不会出现想象中AI完全取代人类颠覆生产生活的程度。

并且，大模型的使用其实和人本身的知识水平，创造力、想象力有很大的关系。如果你并没有具体的想法，你想要让大模型随便说点什么（say something），可能大模型只会给你回复一个——

huh？（啊？）

虽然发展速度很快，但是从AI到AGI（通用人工智能）还有一段很长的路要走。

不过这同时也意味着，人没有那么快被大模型取代，现阶段把大模型充分地用起来，它会是一个效率很高并且在持续变强的参谋，一个很好的助手。