长文干货!老程序员测评文心一言4.0模型代码能力!

canon_qaq 2024-07-04 16:01:02 阅读 96

目录

前言:老程序员聊聊AI和国产大模型

第一关:代码质量和可用性——写个可运行的游戏代码

第二关:需求理解和记忆能力——多轮对话下的任务能力

总结


前言:老程序员聊聊AI和国产大模型

大家好,我是一名老程序员了,大模型出来后我算是一直在尝试各种AI工具,尤其是AI辅助研发的方向(可能有点焦虑?),包括上个月的AI程序员Devin发布我也在关注,大模型的能力发展太快了,我还是想努力跟上。

我个人一直支持国产大模型,也算文心一言的老用户啦,去年3月刚内测的时候就在用了,那时候特振奋,想着国内终于有一款大模型了,刚开始用的时候很坎坷啊,用起来一直达不到预期。

不过文心一言的模型能力还是在肉眼可见地变好,我现在的情况是付费使用文心一言4.0模型(免费的3.5模型基本不用了),我的感官是文心一言4.0模型对比3.5在各个方面是有明显提升的,迭代速度也更快(可能是商业化后会存在训练资源倾斜?),我看各大平台很少有一言4.0模型的测评,所以今天专门写一篇。

图片由文心一言4.0生成,图个乐

我平时用的最多的还是代码和文本生成(周报写文档你懂的),偶尔玩玩文生图,今天主要给大家测一测文心一言4.0模型代码能力

大模型的代码能力可以拆解的维度很多,我今天主要关注的是代码生成质量和可用性需求理解能力和记忆能力2个方面。


第一关:代码质量和可用性——写个可运行的游戏代码

废话不多说,我们先看看代码的生成质量和可用性——写一个五子棋吧

我去测试AI的代码能力的use case是——我会让AI写个小游戏,底层逻辑是AI需要理解游戏的规则,并且转译成代码,还必须是可运行的代码,这可能是程序员视角下的“多模态”能力吧,哈哈。

所以我让文心一言4.0模型帮我写一个能跑起来的【五子棋】游戏代码,我们看看生成的代码质量(对话截图参考下方)

那么关键来了,是否可以运行呢?

我们直接copy下来在开发环境中运行,运行起来没问题,定义好了2个棋手交替下棋,一方到5个棋子后游戏判定结束,可以看下方视频截屏。

五子棋

第一关,代码质量和可用性,文心一言4.0模型测试通过~


第二关:需求理解和记忆能力——多轮对话下的任务能力

下面我们看文心一言4.0模型的需求理解能力和记忆能力,测试开启:

很多时候我们在AI代码生成上不是一问一答就结束了,最常见的情况反而是——要求AI不断调整生成的代码,这对AI的记忆和需求理解能力提出要求,下面我会模拟这个情景:

我们看看4.0模型能不能帮我写一个【机器学习代码】,简单来说是对【单层感知机】做一个正负向分类的训练,prompt+回复截图参考下方截图:

我向大模型提问有没有更好的方式实现我的诉求,这考验4.0模型是否真的理解我在做什么,以及对机器学习的了解,我们接着往下看:

文心一言提出了有神经网络和支持向量机2种方法,给出的说明说明很具体很有信息量,说明对我的需求理解程度是在线的,以及展示了对复杂机器学习算法问题的解决能力。

那我们下面让4.0模型直接按照【支持向量机】再帮我写一个新的代码呢?4.0模型还会记得住我们在讨论什么吗?

代码基本可用,因为数据集太小,还专门提示我没必要拆分训练集和测试集(大数据集下通常会做拆分),算是比较贴心了。

所以第二关,需求理解和记忆能力,4.0模型通过!


总结

整体看下来,文心一言4.0模型在代码生成质量和可用性需求理解能力和记忆能力2个方面表现不错,我自己用的时候基本能满足我的代码诉求,当然我自己还会用4.0模型帮我写一些工作汇报和其他工作文档,中文能力也很不错,中文能力也确实一直是文心一言的核心竞争力啦。

最近文心一言付费会员还上线了【工具版】,上线了Agent框架下的复杂任务的规划、调用工具的能力,算是一个亮点,下次再和大家分享。

如果大家也想快速使用文心一言4.0模型,可以👉👉点击开通文心一言4.0模型,或扫描下面这个二维码开通哦👇👇



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。