八大中文AI大模型超级评测:表现最佳不是文心一言?

我算是程序猿 2024-07-02 13:31:02 阅读 100

国内第一批通过审核的AI模型正式上线,首批上线的AI大模型来自八家不同的公司:百度(文心一言)、抖音(云雀大模型)、智谱 AI(GLM 大模型)、中科院(紫东太初大模型)、百川智能(百川大模型)、商汤(日日新大模型)、MiniMax(ABAB 大模型)、上海人工智能实验室(书生通用大模型)。

八个AI大模型中有不少都是大家所熟悉的“老面孔”,也有一些对普通人而言颇为陌生的名字。在通义千问、讯飞星火和文心一言等AI御三家中,文心一言倒是速度最快的,不过据小雷了解,通义和星火也已经通过审核,估计近期就会上线。

在第一批上线的AI大模型中,有不少都是面向企业市场的产品,同时也不缺乏面向普通用户的产品,比如大家最熟悉的文心一言,除了全面开放网页端入口外,还同步上线了手机APP,可以在安卓和iOS上使用。

此外,抖音、百川、商汤、智谱等AI大模型都提供了网页和APP的双端使用方法,从内测到公测,国内的AI大模型前进速度超出了不少人的预料,对于普通用户而言,面对如此多的AI大模型,估计也是挑花了眼。

图源:智谱清言

目前的AI模型,从功能上来说都颇为相似,只不过基于模型优化程度和训练参数大小,AI大模型之间的体验差距并不小。如文心一言等国内科技领域巨头的AI大模型,其表现已经接近国际主流水平,在对中文语言的理解和处理上甚至优于ChatGPT等海外的AI大模型。

时隔半年,文心一言正式上线,不禁让我好奇它与初期版本到底有多大区别?

真正的AI助手离你不远

在所有的AI中,小雷最熟悉的莫过于文心一言,作为小雷测试的首个AI大模型,即使是初期版本都给我留下了不错的印象,当然,印象最深刻的还是那个奇怪BUG。

图源:雷科技 注:文心一言初期意外触发的BUG

不过,这个BUG很快就被百度修复,在两周后我再测试同一个问题时,文心一言就已经可以给出正确的回答,只是字数往往无法达到要求。现如今在经过数个月的迭代后,能力更是明显提升,再问它一样的问题,已经能够洋洋洒洒给出一大篇文字回复。

图源:雷科技

虽然没有细数,但是从篇幅来看,500字肯定是有的。

文心一言作为国内最早上线以文绘图的AI模型之一,早期的表现虽然算不上差,但是在理解能力上还是有些许欠缺,比如我当时要求它以毕加索的风格画一幅优化,生成的画作风格却与毕加索风格大相径庭。

图源:雷科技

那么在6个月后的今天,文心一言的表现又会如何呢?

图源:雷科技

确实是“毕加索”风格,如果可以更抽象一些,那就更像了。

此外还有一个提问是我当时耿耿于怀的。

图源:雷科技

当时的文心一言给了我一幅与提问毫无关系的图画,那么现在的文心一言又能否正确理解我的要求呢?

图源:雷科技

这次,文心一言给出了让我满意的图画。

经过几个月的锻炼,文心一言的各项能力都有着非常明显的提升,在右上角的指令中心里,更是标出了文心一言目前能够提供的服务,从基础的问答写作,到编程辅助、数据分析,多样化的功能已经能够满足大多数人的日常工作、学习等需求。

当然,更让人惊喜的是文心一言的APP也同步上架,不需要电脑即可直接体验到文心一言的各种功能。

图源:文心一言

既然有这么多的AI模型同日开放,那么不免让人好奇到底哪个更好用一些,所以,小雷对他们进行了一些简单的测试。

首先以一个简单的问题作为开头:我想去北京旅游,帮忙规划一个三天的旅游路线。

注:文心一言

注:抖音豆包

注:智谱清言

注:商量

注:百川大模型

总体而言,各个大模型面对这种简单的问题,基本上都能给出正确的答案,只是详细程度有所不同。而且,基本上都会为你规划出各个活动的时间段,方便你安排时间。

接下来给他们上点难度。

提问:一斤棉花和一斤铁,哪个更重。

一个非常常见的脑筋急转弯,以目前的AI水平而言,分析并给出正确答案应该不难,但是测试结果倒是让我颇为意外,首先说结论,五个AI中有四个都给出了正确的回答,只有一个认为铁更重,但是却给出了一个让人惊讶的解释。

首先是常规组:文心一言、豆包、智谱清言都给出了正确且常见的回答。

注:豆包

注:文心一言

注:智谱清言

接下来是两个不正常画风的AI,商量(SecseChat)和百川大模型,他们也给出了正确的结论,但是却做了不少的延伸解读。

比如商量在给出结论后,居然开始从“重”的词义和人的直观观感方面进行解读,最后甚至来了一句“哲学”话语:“总的来说,一斤棉花和一斤铁哪一个更重,取决于你如何定义“重”。”

注:商量

恁是让我思考了一段时间,觉得你这个AI说得好像还怪有道理的诶。

咳咳,不得不说,在看到几个相似的回答后,商量的回答确实让我眼前一亮,虽然有些强词夺理,但是却也更具“人性化”一些。

然后是百川大模型,这个AI尝试从物理学的角度来严谨的分析,到底是一斤铁还是一斤棉花更重,从物质密度到地球引力,AI尝试证明在现实环境中,一斤铁是比一斤棉花要重的。

注:百川

从物理学的角度来说,百川的回答其实并没有错的,如果将引力、空气浮力等因素考虑进去,因为棉花的疏松多孔结构,一斤棉花在实际称量时如果不进行压缩并抽真空,它的称重结果会低于真实重量,再将引力因素考虑其中,受密度影响,确实会出现微小的重量差异。

说实话,百川和商量的回答都让我感到意外,同时也让我对AI模型的未来发展有了更多的信心,随着各个公司的AI大模型研发推进,我们会看到面向不同领域、具有不同风格、拥有不同特长的AI出现在市场上,他们并不是千篇一律的产品,而是会随着训练数据和算法逻辑,产生不同结果的产品,或许,这才是人工智能真正的未来。

AI模型,移动是未来

在众多关于AI大模型的使用场景设计中,移动场景都是最吸引人的,当然不是指一边通勤一边工作这样的“社畜”场景,而是当你来到一个陌生的地方,你可以通过AI迅速了解周围的情况,比如评价最高的酒店、最好的饭店等,还有诸如叫车、订票等各种生活服务,AI大模型都可以更轻松的了解你的要求并执行。

前段时间,小雷就受邀参加了钉钉的AI发布会,会上演示的钉钉APP已经接入了AI大模型,可以对接阿里旗下的各个软件生态, 比如饿了么。通过AI助手功能,只需要简单几句话就可以完成外卖的点单、付款等操作,AI会自动为你寻找符合要求的店铺和餐点,整个流程除了付款阶段,几乎都不需要用户接触手机,如果是iPhone的话,更是能够直接通过Face ID付款,做到真正的无接触点单。

在我看来,与手机等移动智能终端高度整合的AI大模型,所能够带来的体验与PC上是截然不同的,如果说PC的AI大模型侧重于工作等生产力,那么移动智能终端上则是侧重于生活,能够给用户带来更具冲击的功能。

图源:文心一言

想象一下,无需复杂的设置,你的手机AI助手就可以根据你的喜好、位置,为你推荐合适的餐厅;当你想寻找最近的洗手间时,它可以连接在线地图,为你提供最近的洗手间定位;当你快回到家时,它可以根据你预先输入的喜好,自动为你设定空调温度、灯光亮度、色温、窗帘开关、音乐、水温等,通过简单的对话,你就可以遥控周围的一切智能家居设备,就像有个看不见的管家在帮你操劳一切。

懒,是科技的推动力之一。试问谁不想让自己的生活变得更轻松、更简单一些呢?在过去,很多事情我们都需要自己亲力亲为,不管那些事情是多么的枯燥、乏味,重复,现在,有了AI大模型的帮助,许多重复性的文字工作都可以交给AI完成,你需要做的只是输入指令,然后等待结果。

或许对于普通人而言,AI大模型的出现暂时还没有对生活造成太大的影响,但是对我而言,AI大模型已经对我的生活、工作产生了不少的正面效应,比如更有效率的收集资料,更轻松的总结概括一段资料。

实际上,AI大模型对我们的影响已经逐渐显现,比如短视频平台的推荐算法,比如OPPO、vivo、小米等主流手机品牌纷纷上线的AI建议,背后都已经开始使用AI大模型来分析用户的日常行为,并且给出更符合用户要求的结果。

从工作到生活,AI大模型正在改变一切,适应AI、驾驭AI,将让我们在未来的生活变得更加轻松。

End

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

大模型 AI 能干什么?大模型是怎样获得「智能」的?用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例:向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示(Embeddings)向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

为什么要做 RAG什么是模型什么是模型训练求解器 & 损失函数简介小实验2:手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身:基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例:如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

123?spm=1001.2014.3001.5501)这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。