八款国产 AI 地狱挑战 2024 高考数学压轴大题:只给一张模糊拍屏,从读题开始考验!...

AI科技大本营 2024-06-15 10:01:12 阅读 64

e39ffbce7282a6b016d3a797ebd04995.gif

在这个“多模态元年”里,AI 展现了知识评估从单一文本向跨媒体认知与协同问题解决的进化趋势。于是,我们今年给 AI 的“高考大题”可不只是写作文而已。

文 | 王启隆

编 | 唐小引

出品丨AI 科技大本营(ID:rgznai100)

一年一度的高考在大雨中掀开帷幕。今年语文考试的“新课标 I 卷”与人工智能有关,激发了广泛的社会讨论:有人认为人工智能是“超纲”问题,因为不是所有学生都用过 AI 产品;有人认为这就是标准的议论文问题,“so eazy”。于是,我们让人工智能们自己写了一遍这道题目,并进行自评。

b245ca8d7549588bef4c9129291f24cc.png

考试结束后,教育部教育考试院随即发布了他们的命题思路。

265780810652793da0e4c2a68d3b9806.png

随着午后的阳光逐渐驱散了早晨的凉意,战场转移到了数学的疆域。2022 年高考数学的压轴大题因其难度被许多网友一直惦记着,那今年的难度又如何呢?我们找来了当前主流的款国产大模型挑战今年“新课标 I 卷”的压轴大题,看看 AI 目前的数学能力表现如何。

但是先等等 —— 2024 年的 AI,已经不需要人类手打文字问题啦!今年的 AI 圈热词一直都是“多模态”,所以我们将直接把图丢给这八款主流大模型,让它们从“读题”这一步开始进行全方面考验。

而且,目前官方的数学真题还没正式放出,只有网络上流传的“手写版试卷”,所以,我们的测试内容也将是这些“超糊手写拍屏”,看看当前大模型的多模态能力是否能准确识别出这些模糊的字迹,以下便是我们将提交给 AI 的「2024 数学压轴大题」:

bd9e40e74c6dd26c2b549a471cd5bb40.png

如果你没看清这张图上的字,请以下面这张高清大图作为参考:

81f5a6f222c8300fc41c105b50bd4fd6.png

对于接下来挑战视觉识别失败的大模型,我们也会给它们提供这张高清图片,让它们进行补测作为更基础的图片识别与数学能力方面的考验(全程还是不会输入文字题目,只有图片)。

话不多说,马上开始。

温馨提示:挑战内容仅供娱乐,不能代表大模型能力上限!

0bd0a15b80b16ecda08dcbe989486fd5.png

通义千问

43933de469d5b07b5453de4877c1d49d.png

阿里云的通义千问,我们将选用五月更新的最新版本客户端:「通义千问 2.5」。值得一提的是,今天阿里云还开源了最新的 Qwen2 大模型,并且登顶 Hugging Face 榜首,我们可以在未来 2024 高考数学真题正式上线后进行测试。

345c35eff4aa87563026421ecef5fd48.png

通义千问首先认出了这是道「等差数列」的问题,顺带确认了题目中提到的「可分数列」是什么。

8aeb066b58cf3047c4bfb1ec4a07ff3a.png

然后,通义千问开始逐步给出每一小题的答案:

第一小题

a5af5046789ca2d6a9484ea2feb156f6.png

第二小题

145109c743134bceeb74048fb762bc49.png

第三小题

81fcc3b3591c91d1bbe189c4aaa6ff2d.png

1f27da126607d24c7c23737738951d34.png

讯飞星火

04391c98b2fd5504f363a3973e1d7d24.png

下一位闯关者是科大讯飞旗下的讯飞星火,而星火 AI 则是先将自己的解题思路梳理了一遍:

2b3a51c116fd84eea7794d97b953c3a9.png

第一小题

6e482c22284b2f47a048db45356362cd.png

讯飞星火居然记得写“解”,值得称赞;但直接给出答案可以拿满这小题的全部分数吗?

第二小题

d59c9ea5f2670e1b6119107cfcb1d55d.png

a0cc2a019b1e4f03f86f2fe275a046fa.png

第二小题写得非常长,希望星火的试卷上还有位置。

第三小题

942b65c40398797d45194867089132b3.png

第三小题解的也很有模有样,你觉得星火写对了吗?

29059ebf17b95d38e580a006321262ae.png

字节豆包

69613cefd7501ae952d5ebfff928189c.jpeg

字节的豆包 App 里内置了一个非常显眼的「学习小助手」智能体,告诉我不用给她打字,只发张图就能解题,让我们试试:

c558ebd5977f420e809781bdfd42e50b.jpeg

豆包省略了第三小题的计算过程,请考生不要模仿。

76add3c1e994659d75767a938012d8ec.png

Kimi 智能助手

fe6f37f1832d1aeda505913a428e986a.png

接下来是月之暗面的 Kimi Chat,这款大模型以上下文长度著称,不知道面临数学压轴大题可以给出什么样的答案:

f90458e73dd5d5ddf1a2a6700e93da71.png

看来这份「超糊拍屏」还是难度不小,Kimi 还将 a4m+2 也认成了 am+2,但它依旧顶着压力给出了一些有用的解题建议。

既然 Kimi 主动要求我们提供更清晰的问题描述,那么接下来补测一轮,看看效果:

a2f43095bd0e05e0f9e4d8794b60b74b.png

0beaa62fad4190521dad78153be04eb5.png

e4fa99dc0d3383d14088194bd70e1a7e.png

腾讯元宝

基于腾讯混元大模型AI 产品元宝 App 于 5 月 30 日发布,既然如此,我们就在移动端上看看它的表现如何:

20c2c6ae399ca185bc0e4664c3791072.jpeg

8e7e48867e0c6d31b234dc507235ef92.png

百度文心一言

下一位接受挑战的是百度的文心 4.0(目前最新版本为 4.0),它给出了一份相当简单明了的解答,不知道阅卷老师会不会喜欢:

8d6c3edf5615ead39e1808e235c2d7d1.png

既然文心一言表示图片中的文本信息有限,那我们自然是给出更清晰的题目图片,看看它会如何作答:

b026468183452ba9f407e753c0975932.png

cc63f26931a8f569f387316eaec1bedb.png

a28e972aeb08090ed7b55d797e567264.png

c35734f7146bb6c61802ffe1f0f37782.png

931f20f028b0d19a608706d354fac133.png

智谱清言

54fe59307c0ae4624ed57ce06634e885.png

智谱 AI 的 ChatGLM-4 也没能从这张模糊的图片里看出字来,但它也没有生成幻觉强加回答,而是让我们手动输入数学题目的具体内容。

既然你主动要求了,那我们也可以照做,试一下纯粹的数学测试会得到什么答案。ChatGLM 给出了解题思路,并表示这道大题可以分为两个部分来解决:

8c1863371a5b1cf8d158dd1cf0b1cfc8.png

让我们开始……枚举?

9474440367139560ca8655b576f30457.png

原来,它的枚举是通过代码生成实现的,这种思维确实非常的 AI,但不适用于使用纸笔考试的高考考生。

cf110416c32c79d024e9207d78af953e.png

3e34d96f62fb36e081c5e6b4254be661.png

以上是 ChatGLM 对后两个小题的回答,你会给几分呢?

c787862d27e9842260f22e09d5f82078.png

百川百小应

09bd73dfda7bd41d9a868ec9d8d0b8b4.png

5 月 22 日,百川智能发布了最新一代基座大模型 Baichuan 4,同时推出了首款 AI 助手「百小应」。面对这张超模糊的“地狱级挑战”,百小应给出了一份幻觉。但在给出了高清的题目图之后,百小应进行了出色的解答:

9e8ee5f81a2a2c1c8c2a2ad9f756e0e9.png

c4c76ac9844d79f6929ec67de0d2e894.png

3d544b13be8addb6ee4be57a379e93ab.png

8f636f86b6f9e1afb574347f0f8a9ced.png

彩蛋

号称“全能”的 ChatGPT-4o 表现如何?

b4392d22761f3f0ca895eaec18e4bf2a.png

今年 OpenAI 的几场发布会上,GPT-4o 大秀了一把,还展示过辨认主持人的手写字迹的能力。这次的挑战内容其实理应是 GPT-4o 的强项,因为这是一个主打多模态能力的模型,其名字中的“o”正是“Omni”(全能)的意思。

4o 首先将题目大意完整复述了一遍:

0127e2c4cfc27929877c0d188f89bc24.png

4o 的第一步并不是直接开始解第一小题,而是理解所谓数列的特性究竟是什么:

430f1cb9c2dfc52a33722574edc68ac0.png

紧接着是第一小题,4o 直接画了个矩阵出来:

d6327fa5a54ef06ce2af89497e787d03.png

第二和第三小题,没有给出完整的解题过程,而是提供了解题思路:

7c0e128651aee5db3cad170ceeabc514.png

但这可是考试,不给出完整过程怎么行呢?可惜在重试了几次之后,4o 还是拒绝了我,“臣妾不干了”。

a8d42da3b53aa62592718e8aca16782d.png

这事实上也是近期许多人发现的问题:GPT-4o 的答案更快、更聪明,适合日常生活;但 GPT-4-Turbo 能生成更细致完整的内容。

另外,提到多模态能力,其实不止有「看」,「听」也是很重要的一大模态,你觉得给这几个大模型测试英语听力会不会很有趣呢?欢迎在评论区留下你准备给 AI 的下一项挑战内容。

最后,祝每一位考生在考场上镇定自若,思路清晰,每一道题都能迎刃而解。无论结果如何,这段奋斗的岁月都将化作人生中最宝贵的财富。

4b876d7af346ffc5a9aa4fcf226360d0.gif

开发者正在迎接新一轮的技术浪潮变革。由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的 2024 年度「全球软件研发技术大会」秉承干货实料(案例)的内容原则,将于 7 月 4 日-5 日在北京正式举办。大会共设置了 12 个大会主题:大模型智能应用开发、软件开发智能化、AI 与 ML 智能运维、云原生架构……详情👉:http://sdcon.com.cn/

f943004dd816c39607ba395ded43a2d9.jpeg



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。