爆肝！测了6个国产AI大模型，冒死说几句大实话..._IT资讯网

爆肝！测了6个国产AI大模型，冒死说几句大实话...

技术领导力 2024-07-07 09:01:02 阅读 94

出品：「顿悟山丘」咨询

策划：黄哲铿 Mr.K、张建华、李国山、黄勇

测评：Wendy.L

上一期我们说过，笔者连续好几夜爆肝，一口气亲自测试了6款大模型，虽然收获了无数槽点和笑点，但不得不说，咱国产这几家大模型才俊们，也还是有点东西的。

为了帮助各位读者更快找到适合自己的大模型应用，于是索性又继续爆肝，整理形成这份评测分析报告，现在就让我们一睹为快，看看最强的到底是谁家吧！

01

第一部分总评报告

一、用户体验
评价内容	交互界面	响应速度	多模态输入支持	总体
文心一言	3.5	4.5	4	4
讯飞星火	4	3.5	4	3.75
通义千问	3	3	3.5	3
百川智能	3	3	2
MiniMax	2	2	2	2
智谱清言	3	3.5	3.5

二、基础能力
评价维度	理解	逻辑	记忆	生成
文心一言	4	4	4.5	4.5
讯飞星火	4.5	4	4	4
通义千问	4	4	3	4
百川智能	3	4	3	3.5
MiniMax	3	4	3	2
智谱清言	4	4	3	3.5

三、多模态
支持形式	图片	视频	音频	其它
文心一言	✔	✔	✔
讯飞星火	✔		✔
通义千问
百川智能
MiniMax			✔
智谱清言	✔

四、场景模型
评价内容	场景数量	内容质量	场景有效度
文心一言	5星	4星	4星
讯飞星火	5星	4星	4星
通义千问	2星	3星	2星
百川智能	2星	2星	——
MiniMax	1星	3星半	4星
智谱清言	4星	4星	3星

02

第二部分各家大模型特色分析

第一梯队：

虽然并不是很完美，但毫无疑问这几位是这次测评中的佼佼者：

【文心一言】

我们把文心一言放在第一梯队里面，是因为体验的仅是3.5版本，4.0要氪金，所以说明应该性能更强一些，经过一番爆肝测评，发现作为大厂的嫡子，文心一言确实在以下几个方面具有独特之处：

1、优秀的跨模态理解与生成能力：文心一言具备跨模态理解和生成能力，可以处理多种形式的语言输入，包括文本、图像和音频等，并能够生成相应形式的输出。

2、出色的情感分析能力：文心一言具有较强的情感分析能力，可以识别文本中的情感倾向和情感表达，并能够生成具有情感色彩的文本。简而言之，你生病了，你男朋友只会叫你多喝热水，但是他却能变着法子哄你。

3、丰富的场景和知识库：得益于多年的大搜索数据积累，百度文心一言拥有了丰富的知识库，可以获取广泛的知识信息，并能够根据用户的问题进行精准的回答和解释。这使得文心一言在问答系统、智能客服等领域具有显著的优势。

4、谜一般的作品质量：不管是图片还是文字创作，文心大模型生成的内容，就是一个过山车般的盲盒体验，你永远也不知道它下一秒生成的到底令你惊喜万分还是大跌眼镜，不过这确实也是跟文心一言对话时候的乐趣所在。

5、中规中矩的用户体验: 虽然内容生成说得头头是道，情感分析也十分到位简直堪比渣男中的战斗机，但是对于一个比较吹毛求疵的用户来说，交互体验方面文心一言就是直男中的拖拉机。

【讯飞星火】

又是一个浓眉大眼的大厂嫡子——讯飞星火从“外貌体验”上来说，可以说是吊打文心了。

如果说文心一言是一个拥有深厚才华和内涵但不外露的优质富二代，那么讯飞星火可以说是一位非常高调的“高富帅”，总之就是，有什么优点就全都放在主页上，不怕我没有，就怕你不知道。

另外还有这些丰富的插件，简直就是为打工人量身定制的，甭管生成的质量如何，但至少这个态度我是给满分的！

第二梯队：

第二梯队虽然背景不同，能力也是各有千秋，但从深度体验的水平上来说，我就放在一起说了，因为从用户体验、基础能力以及场景模型方面来说，都是不相上下半斤八两的。

就是你也说不出它哪里不好吧，但是似乎哪里都是差点意思。

【通义千问】

场景方面，看似不少，但是也比较鸡肋。

【智谱清言】

从用户体验来说，和通义千问很相似，但是交互体验明显好于前者。

场景丰富度很高，但是奈何都很鸡肋——属于看似花哨但实则只适合消遣，没什么大用处的。

绘图能力还是可圈可点的，风格也迥异。

【百川智能】

从用户角度来说，作为初创新贵，其实百川的交互、响应速度、以及基础能力等真的已经很强，但是跟第一个梯队的其它大模型比较下来，大模型本身是主要短板，还有就是场景不够丰富，而且多模态能力不足，后续还是有很大的提升空间的。

【minimax大模型】

肉眼可见是目前测评到最“穷”的大模型了，没有之一。

简陋的交互界面，有些“脾气”的交互问答,还有动不动就卡住（当前阶段，体验用户（未充值）调用接口时会被限速），可以说是又穷又任性了。

但是不管怎么样，个人还是觉得它在交互方面仍有些独到之处：

首先是场景前置，作为一个用户，你得是带着目的来使用它的，场景虽然不多，但是每一个都有着做精做深的潜力，这比起前面那些大模型多到令人眼花缭乱但十分“鸡肋”的场景功能来说是好多了

其次是留给用户更多且更方便的开发空间，可以直接进行代码查看和修改。

这段代码背后其实对应的是一个交互特别简陋，但是还挺有趣的推理游戏。

感兴趣且如果时间多一点的朋友，也可以找来玩玩。

最后是，MiniMax这么“穷”居然还支持语音输出：

我简直感动哭了。

而且亲测，这个语音是有情感语调的，而且还可以选择不同音色。

这个简直可以吊打其它所有一众令人难受的AI式朗读。

也许在未来，是可以取代真人有声书演播的。

03

第三部分使用建议

测评了这么多位大模型才俊，发现其内核跟现实中找伴侣是一样的，那就是永远也找不到完美的，但总而言之，没有最好的，只有在特定场景下最适合的。以下是一些使用的建议：

一、创作找寻灵感：

文本创作方面，个人强推文心。

二、办公助手：

讯飞星火、文心等等都可以组合使用，毕竟助理多了谁也不嫌多。

三、生活辅助：

这个用谁家都是差不多的，但个人使用习惯上来说还是文心（移动手机版or 网页小程序都很好使）。

四、图片生成：

个人觉得国内这几款没有特别能打的，但是也各有千秋：

文心比较通用，但风格单一不够出众。

智谱清言的风格特色更丰富。

讯飞比较偏动画建模感：

五、教育学习：

MiniMax有一个“作业批改”的功能，可以尝试一下，虽然这个交互也不怎么友好吧，但如果是有能力的你甚至可以修改优化一下代码，对于程序员来说可以是一个不错的学习平台。

本次测评到这里也就告一段落了，那么究竟谁是最强大模型“王者”？

在移动互联网时代，当年也是有无数短视频应用发起，但是最终市场竞争过后，几乎只剩下快手和抖音。

但即使是到今天，谁也没法下结论说，到底是快手还是抖音更好用，为什么呢，因为受众和内容倾向性不同。

在人工智能时代， “千模大战”过后，最终大浪淘沙留下的，想必也就那一两个，时间会证明一切。

不管是什么，我们只需要记住，这些都是工具，工具要为我所用，而不是牵着人的鼻子走。

就像在测评过程中，MiniMax跟我说的一句话：

“真正的危险不是计算机开始像人一样思考，而是人开始像计算机一样思考。

机构简介：「顿悟山丘」咨询，致力于企业数字化转型咨询与方案落地。是由国内知名数字化转型专家 Mr.K（黄哲铿），与多位来自头部互联网公司的技术专家共同创办。凭借领先的方法论、丰富的行业经验，获得了数十家上市公司及独角兽企业的青睐和赞誉，并保持长期、紧密合作。

添加“顿悟山丘”创始人Mr.K，私人微信

上一篇：关于几款AI人工智能驱动的代码生成插件，强烈推荐：通义灵码

下一篇： AI绘画SD告别提示词颜色污染！Cutoff插件一键解决AI色盲问题！

本文标签

冒死说几句大实话... 爆肝！测了6个国产AI大模型

声明

本文内容仅代表作者观点，或转载于其他网站，本站不以此文作为商业用途
如有涉及侵权，请联系本站进行删除
转载本站原创文章，请注明来源及作者。