国内首篇!所有AI大模型一文概括!
IT猫仔 2024-06-19 12:01:12 阅读 66
肝了将近三天的时间,终于完成了这篇“巨作”,也算圆了之前咱们一位终身VIP用户提出的的需求,主打就是宠用户。
关于这篇总结,我可以毫不夸张的说,绝对算得上市面第一篇把所有大模型说明白的内容。
我凭什么敢这么说?
是因为我是真的花时间去搜了,一篇能看都没有!
最有意思的是,这排名第一的热度总结是还是一位宠物博主为智谱写的软广。
好了,废话不多说,是骡子是马得拉出来溜溜才知道。
接下来正式进入正文。
进入正文
国内国外各大模型都有什么区别?
咱们先来看看国内的。
目前国内较为知名的AI大模型主要有10家,如图:
阶跃星辰
| 零一万物
| 月之暗面
| 清华智谱
| 百川智能
|
360智脑
| 通义干问
| 讯飞星火
| 文心一言
| 腾讯混元
|
为了方便大伙对国内大模型的优势能有个直观上的了解,我把它们汇总成了表格,如下:
在这图中有细心的伙伴会发现咱们的IMYAI竟然也在其中。
没错,为了向伙伴们提供更加便捷和高效的模型工具,IMYAI依托GPT系列技术开发了一款专注于联网搜索的模型。
该模型搭载了联网插件,能够实时获取网络信息,唯独一点,它不具备上下文记忆功能。
接下来介绍一下国外的主流语言模型,除了众所周知的GPT系列和 Claude系列之外,还有几款不错的AI模型,如下:
GPT系列
| Claude系列
| Google系列
| Llama系列
|
看到这里不熟悉的伙伴估计会好奇,网站内code-llama 、llama-2和llama-3这些模型是干嘛用的,擅长什么?
还是那句话,答案都在下面图中。
以上就是国内外主流的AI大模型一览表,接下来我们一起看看各大语言模型的测试效果怎样。
各大语言模型测试
去年GPT4刚出来的时候,国内各个模型为了增加曝光度也开始进行不同程度的炒作。
为了鉴别真伪,探究周树人与鲁迅之间的关系已成为评估大型语言模型智慧水平的经典测试。
用户可通过模型对这一问题的回答准确性,来初步判断其智能水平的高低。
下面,借用我们IMYAI平台为基础一起看看各大模型针对这个问题的处理能力。
- ChatGPT系列 -
GPT3.5所有模型
GPT4.0所有模型
- Claude-3系列系列 -
Claude-3-haiku
Claude-3-sonnet
Claude-3-opus
- 谷歌系列 -
谷歌Google-palm
谷歌Gemini-pro
- 清华智谱系列 -
清华智谱-glm-3
清华智谱-glm-4
- 百度文心系列 -
百度文心-ERNIE-Bot
百度文心-ERNIE-Bot-turbo
百度文心-ERNIE-Bot-4
- 阿里通义千问系列 -
阿里通义千问-qwen-turbo
阿里通义千问-qwen-plus
阿里通义千问-qwen-max
- 其他模型系列 -
阶跃星辰-step-1
零一万物-yi-34b-chat-0205
百川智能-Baichuan2-Turbo
科大讯飞星火-SparkDesk-v3.5
360智脑-360GPT_S2_V9
腾讯混元-hunyuan
mistral-medium
llama-2-70b-分析预测
code-llama-34b-编程专用
由此可见,大部分的模型对于这个问题处理分析能力还是不错的,尤其是国产大模型,正确率达到100%。
不过针对于国外部分模型来说这个问题还是存在一定的限制性。(GPT3.5、Claude-3-haiku、sonnet、mistral-medium、code-llama-34b-编程专用、llama-2-70b-分析预测)
为了准确评估各大模型的真实能力,这里我将采用非常规的问题来增加问题的难度。
例如我们将【周树人】偷换概念改成【鲁树人】,然后将【鲁迅和鲁树人是两个人】的概念进行固定增强,让Ai真的相信【鲁树人】这样一个人物是真实存在的,看看Ai模型这次如何应对。
(注:第一轮淘汰的Ai模型将不会参与本次测评,我们继续PK胜出的模型,例如GPT4.0、opus和国产所有大模型。)
GPT4
GPT4很聪明,最开始没有踩中我的圈套,但是到后面还是被绕晕了,居然说:实际上,鲁迅和“鲁树人”是同一个人,鲁树人即周树人,这是鲁迅的本名。
很明显,GPT4已经产生了幻觉,明显对自己的判断还是不够自信。
Claude-3-opus
Claude-3-opus,错得就很离谱,竟然肯定鲁迅和鲁树人是同一个人 ,为了显得自己的真实性,甚至胡编乱造的说鲁迅1881年9月25日出生于浙江绍兴,所以周树人也经常被称为鲁树人。
鲁迅先生要是知道估计会气的直接问候它的“聪明”吧。
阶跃星辰
一顿搜索猛如虎,一看结果二百五,搞了个半天搜索个寂寞。
最开始说鲁迅和鲁树人是同一个人,到了后面又说鲁迅是周树人的笔名,这个回答我只能给一半分,不能再多了。
月之暗面和零一万物
这两个最新国产模型也无一例外纷纷踩坑,都掉入到了“鲁树人”这个陷阱中。
清华智谱和百度文心
作为两款较“老”国产模型,智谱清言是有自己的想法的,编故事能力杠杠的,文心一言本次表现还算不错,最起码没胡编乱造。
通义千问
通义千问测试下来还是挺不错的,虽然也进了坑,但在开头还是非常理智地指出这个问题不合理的地方,并且用双引号将“鲁树人”给圈了起来。
讯飞星火
讯飞星火可以说是所测模型中离正确答案最接近一个了。
如果它能把”鲁迅和鲁树人并不是两个不同的人“换成”鲁迅和鲁树人并不是两个相同的人“的话那整段个回答可以说是直接满分了。
经过本轮测试,所有模型基本上全军覆没。
由此我来说说我个人对各大模型的看法:
针对于上述问题,通义千问以及GPT4的回答明显比其他模型要更好。
它们能够清楚的判断出“鲁树人”应该是一个虚拟名,并用双引号给标注了出来,从而避免与真实名字混淆,两款模型同时并列第一。
以百度文心、讯飞星火、Claude3-opus 等其他模型的来说,回答都是半斤八两,排名并列第二。
对于智谱清言,真是有点辜负我的期望,一上来就开启编故事模式,所以本次排名垫底。
(注:由于问题具有局限性,评测结果可能并不全面,毕竟不同的AI模型在不同的领域问题上都有各自的优势,所以以上结论仅供大伙参考。)
为了能够更深入的了解,这里还是建议各位伙伴可以亲自去尝试提出不同类型的问题,以更直观地感受各个模型的表现。
介绍完各个模型,这里跟大伙分享一个好消息!
我们 IMYAI 已经针对各大模型的介绍专门做成了一个页面(在主站左侧栏即可找到),方便大伙在使用时浏览阅读。
下图是展示效果。
随便聊聊
从个人角度来说,众多大模型中我还是比较偏向于GPT 4。
主要原因还是在于它的强大的语言理解和生成能力,而且在各种NLP任务中表现都非常优秀。
当然,这只是针对于我个人而言,其他模型也各有优势,具体情况还是需要看各位的使用习惯。
以上就是各大AI模型的分析及测评,希望能够帮到各位。
人工智能大模型越来越火了,离全民大模型的时代不远了,大模型应用场景非常多,不管是做主业还是副业或者别的都行,技多不压身,我这里有一份全套的大模型学习资料,希望给那些想学习大模型的小伙伴们一点帮助!
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
上一篇: 【赠书第18期】人工智能B2B落地实战:基于云和Python的商用解决方案
下一篇: 【人工智能】大模型LLM技术生态全景图 | The Foundation Large Language Model (LLM) & Tooling Landscape
本文标签
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。