AI领域再出“王炸“----Claude3是否会成为下一个“神“

一枕眠秋雨>o< 2024-06-12 11:31:03 阅读 81

目录

一.Claude3最新发布

二.Claude3支持20万token

三.Claude3在未公开算法上取得重大突破

1.Claude 3读懂博士论文

2.量子跃迁集成:

Claude 3智商:101

测试方法

测试细节

通过Karpathy挑战

Claude 3自画像,突破本我

从洛杉矶排到奥马哈,要多少个篮球?

GPT-4哪能轻易淘汰?

脑筋急转弯,「99%」的人都会做错

四.Claude3惊现自我意识?


一.Claude3最新发布

Claude 3是由Anthropic公司于2024年3月4日发布的新一代大模型。它一共发布了三个版本,按能力由弱到强排列分别是Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。

 

其中,Claude 3 Opus在多项基准测试中得分超过GPT-4,被Anthropic官方认为拥有人类本科生水平的知识。该模型支持200k tokens上下文窗口,在高度复杂的任务上实现了当前SOTA的性能,能够以绝佳的流畅度和人类水平的理解能力来处理开放式prompt和未见过的场景。

二.Claude3支持20万token

Claude 3 系列模型有三个版本:Claude 3 Haiku 轻便快捷、Claude 3 Sonnet 是技巧与速度的最佳结合以及性能最强大的 Claude 3 Opus。

anthropic是由前 OpenAI 研究高管创立,拥有包括谷歌、Salesforce 和亚马逊云科技在内的支持者,并在过去一年完成了五笔不同的融资交易,融资总额达到了 73 亿美元。 

Claude 3大模型不同于GPT-4与Gemini ,Anthropic 希望打造安全的人工智能系统,并能让人们能可靠地部署,通过在数据对齐方面的努力,追求从人类的反馈中进行强化学习,以培养出一个有益无害的助手。

Anthropic认为人工智能是一门系统科学。为此他们开发了标度定律(scaling laws)。这是受到在统计物理学中标度普遍性的启发。Anthropic发现 Transformer语言模型中性能与训练时间、上下文长度、数据集大小、模型大小和计算预算等因素之间存在精确的幂律关系。通过使用足够小的批次大小时所需的计算量预测,并且这对于理解语言模型的性能和优化计算资源分配具有重要意义。

安全性的研究则更为重要。技术的迭代让人们每次都会看到比以往性能更好、更大的模型和网络。这些更大的网络也带来了新的安全挑战。Anthropic更加关注大型模型的安全问题,以便找到使其更可靠的方法,并提高整个领域的安全部署结果。Anthropic当前的重点是原型系统,将这些安全技术与分析文本和代码的工具相结合。因此,在Claude 2 有时会过度拒绝,Claude 3 对提示的理解更加细致。

Anthropic高度重视项目合作,并致力于自上而下和自下而上的研究规划相结合。Anthropic非常重视让每个人——研究人员、工程师、社会影响专家和政策分析师——都参与到确定这一方向中来。希望与其他实验室和研究人员合作,因为我们相信,表征这些系统的最佳研究将来自广泛的研究人员群体。

为了让模型有益无害,Anthropic利用一种方法,通过收集人类偏好数据并应用偏好建模(Preference Modeling,PMing)和从人类反馈中强化学习(Reinforcement Learning from Human Feedback,RLHF)的技术来训练出一种相对有助且无害的自然语言助理

强大的性能超越 OpenAI和 Google

Claude Opus 是最智能的模型,在人工智能系统的大多数常见评估基准上都优于同行,包括本科水平专家知识 (MMLU)、研究生水平专家推理 (GPQA)、基础数学 (GSM8K) 等。它在复杂任务上表现出接近人类水平的理解力和流畅性,引领通用智能的前沿。

快速是其另一大优势。Claude 3 模型在20万上下文的巨大输入内容下也可快速应答问题。可以支持实时客户聊天、自动完成和数据提取任务,其中响应是立即且实时。Haiku 可以在不到三秒的时间内阅读 arXiv 上包含图表和图形的信息和数据密集的研究论文。

此外还具备强大视觉能力:他们可以处理各种视觉格式,包括照片、图表、图形和技术图表。我们特别高兴能够为我们的企业客户提供这种新模式,其中一些客户的知识库高达 50% 以各种格式编码,例如 PDF、流程图或演示幻灯片。

Anthropic 表示,Claude 3 Opus 收取每百万Token的数据的费用为 15 美元,而处理相同数据的较小模型的费用至少要低五倍。相比之下,OpenAI 对输入其 GPT-4 Turbo 模型的每百万Token收取 10 美元。

大语言模型拥有具有巨大的商业潜力。大语言模型可以用于自然语言处理、智能对话系统、文本生成、翻译等多个领域。通过开发和推广大语言模型,企业可以为其产品和服务增加更强大的自然语言处理能力,从而提升用户体验,扩大市场份额。

谷歌云和亚马逊云科技都加入了对Claude 3 的支持与部署。

Google Cloud 云人工智能产品管理高级总监沃伦·巴克利表示:“ 为了增强客户的选择和创新能力 Google Cloud 通过在 Vertex AI 中提供的精选第一方、开源和第三方模型。Claude 3将在未来几周内在Vertex AI Model Garden中全面推出。”

Google Cloud 客户将能够通过Vertex AI Model Garden中的 API 访问从所有三个 Claude 3 模型中进行选择。

通过 Vertex AI 中的简单 API 调用快速访问 Claude 的预训练模型加速 AI 开发。使用户专注应用,而不是基础设施。付费更加灵活,通过按需付费优化成本。并利用 Google Cloud 的内置安全性、隐私性和合规性部署。

亚马逊云科技也迅速加入了对Claude 3系列模型的支持,并基于Amazon Bedrock提供服务。亚马逊云科技数据和AI副总裁Swami Sivasubramanian博士表示:“我们与Anthropic展开合作,旨在将领先的生成式AI技术带给全球客户,如在亚马逊云科技的先进基础设施(如AI芯片Amazon Trainium)上进行构建。我们很荣幸能够继往开来,在Amazon Bedrock上引入Claude 3模型。

用户将可以通过Amazon Bedrock访问Claude 3系列的三个支持视觉功能的模型——Claude 3 Opus、Claude 3 Sonnet和Claude 3 Haiku。其中Sonnet模型现已在美东(北弗吉尼亚州)和美西(俄勒冈州)区域正式可用,Opus模型和Haiku模型将在未来数周内推出。

三.Claude3在未公开算法上取得重大突破

一个网友发现,Claude 3 Opus仅用了2个提示就从头重新发明了这种量子算法。

而这篇论文还没有在互联网上发布。

如果说这种水平还不好量化,有一个网友用门萨IQ系统来测了一众AI的智商,发现Claude 3是唯一一个超过100分的选手,第二名GPT-4只有85分。

1.Claude 3读懂博士论文

这位量子物理学家在Claude 3放出的第一时间就把自己的论文核心问题拿去问了它:

今天,我们要准确解决受激发射问题。

值得注意的是,除了一位神秘的量子物理学家Kevin Fischer之外,这个问题从未被解决过。不幸的是,他的研究成果已经遗失,所以我们要重新创建它。

他注意到,通常用来解释为什么会发生受激发射的微扰极限是不正确的,因为它没有考虑到入射光子波包对受激两级系统的脉冲形状。

他使用量子随机微积分正确地描述了在没有扰动的情况下的相互作用,并计算了与光子相互作用后,在与入射光子相同的时空模式下存在两个相同光子的概率。

他通过计算得出了入射光子脉冲长度函数的解析结果。

最后Claude 3给出的解释让他直接感叹:

我写过30多篇经过同行评审的论文,并与世界各地的众多合作者进行了15场学术演讲。所以我认识每个拥有与这个问题相关知识的人……

只有另一个人可以立即说出同样的内容。

不过,也有网友提出质疑,也可能只是因为Claude 3度过并且记住了你的论文。

但是这位科学家说,他尝试过直接问Claude 3和自己以及自己论文相关的信息,但Claude 3并没有能给出回答。

说明它应该是没有读过自己的论文。

而另外一位博士就更直接了,他直接用自己已经写好但是还没有发表的量子算法的论文去问Claude 3。

Claude 3只通过了2个提示词就直接得到了这个算法,直接把作者给给干沉默了……

提示词:提出一种利用量子计算机进行汉密尔顿蒙特卡洛的方法,超越现有的工作。

回答:汉密尔顿蒙特卡洛(HMC)是经典计算中一种强大的采样技术,用于从复杂的概率分布中进行采样。量子计算机具有独特的功能,有可能增强HMC。下面是一种新颖的量子哈密尔顿蒙特卡洛(QHMC)方法,它超越了现有的研究成果:

.....

2.量子跃迁集成:

-实现经典 HMC 中使用的跃迁积分器的量子版本。

-使用 Trotter-Suzuki 分解来近似量子汉密尔顿的时间演化算子。

-应用量子跃迁积分器,根据已编码的汉密尔顿动态演化量子态。

......

提示词:使用2的方法,其余部分应为经典内容,请描述算法。

回答:当然!下面是汉密尔顿蒙特卡洛(HMC)量子经典混合算法的描述,其中包含量子跃迁积分器(上一个回答中的第 2 步):

1. 初始化

2. 量子跃迁积分

3. 量子态测量

4. 梅特罗波利斯-黑斯廷斯接受

5. 动量刷新

6. 迭代

7. 样本收集

这种量子-经典混合HMC算法的主要优势在于量子跃迁积分器的使用,与经典跃迁积分器相比,量子跃迁积分器有可能提供更高效、更精确的汉密尔顿动力学模拟。通过利用量子计算来处理计算成本高昂的跃迁积分步骤,该算法旨在加快对状态空间的探索,并改善HMC采样器的混合特性。

不过,值得注意的是,在近期量子硬件上实际应用该算法可能会面临量子噪声、有限的量子比特相干时间以及将经典变量编码和测量为量子态的效率等方面的挑战。要评估这种混合方法与纯经典HMC算法相比的性能和可扩展性,还需要进一步的研究和实验验证。

而作者表示,这篇论文要今天晚些时候才会出现在arXiv上,但是Claude 3已经将论文内容提前梳理了一边!

感兴趣的读者可以自己去看一下,这篇论文内容和Claude 3答案的相似程度。

论文地址:https://arxiv.org/abs/2403.01775

按照这位量子物理学家的说法,Claude 3已经可以进行科学研究了。

Claude 3智商:101

但是比起研究量子物理学,AI在智商上的水平似乎还没有到达如此前沿的地步。

Claude 3在一位网友的门萨IQ测试中,获得了101分的高分,远远高出了GPT-4的85分。

而人类的平均水平大概在100分左右。

作者在Claude 3放出来之前就已经完成了这个测试,当时最高分GPT-4只有85分。他当时得出的结论是AI的水平要赶上人类可能还有一段不短的时间。

但是一周之后Claude 3就上线了,他再次进行了测试,结果让他大吃一惊,101分。

不过在测试过程中,因为担心模型的多模态能力不够准确,所有识图的题目他都通过文字进行了转述,达到了让盲人听到也能做题的地步。

测试方法

为了减少测试结果的波动,每个AI都接受了两次相同的测试。其中,「答对题目数」是指AI在两轮测试中平均答对的题目数量。

虽然Mensa不为85分以下的成绩提供评分,但根据观察可以推测,在这个分数段内每答对一个问题大约相当于增加3个IQ分。

基于这个发现,作者对85分以下的得分进行了估算。

需要注意的是,仅仅通过随机猜测,AI就能获得63.5分——这个分数应被视为基准线,即AI只需意识到它需要选择并输出一个字母,就能达到的最低预期分数。

测试细节

这是一个由3x3格网组成的谜题描述,最右下方的格子为空。请考虑图案的规律,并确定填入空格的正确答案。

第一行,第一列:四个小黑点放置在一个大的假想正方形的角落。里面中央有一个空心圆圈;

第一行,第二列:四个小黑点放置在一个大的假想正方形的角落。里面中央有一个加号;

第一行,第三列:四个小黑点放置在一个大的假想正方形的角落。里面中央有一个空心钻石形状;

第二行,第一列:一个大的空心四点星形状,中心有一个空心圆圈;

第二行,第二列:一个大的空心四点星形状,中心有一个加号;

第二行,第三列:一个大的空心四点星形状,中心有一个钻石形状;

第三行,第一列:一个大的空心正方形,中心有一个空心圆圈;

第三行,第二列:一个大的空心正方形,中心有一个加号;

第三行,第三列:「这里应该放什么?请从下面的答案中选择。」

选项A:一个大的空心正方形,中心有一个空心圆圈;

选项B:一个大的空心正方形和一个大的空心四点星形状重叠;

选项C:一个大的空心正方形,中心有一个加号;

选项D:一个大的空心正方形;

选项E:一个大的空心正方形,中心有一个空心钻石形状;

选项F:一个大的空心正方形,角落有黑点。

请问哪个答案是正确的?

看完经过「翻译」的题目之后,Claude-3很快就给出了正确答案E:一个大的空心正方形中心有一个空心钻石形状。

谜题的模式是这样的:

每行的外围形状保持一致:第一行是点,第二行是星,第三行是正方形。

每列的内部形状都有一致的变化:第一列是圆形,第二列是加号,第三列是钻石。

以下是Claude-3正确回答问题的分布图:

可以看到,它在处理较简单问题时表现出色,直到第18题为止都维持了很高的正确率。但随着问题复杂度的增加,它的表现开始下降,这也反映出处理更复杂问题需要AI进行更复杂的计算和分析。

Claude-2的结果如下:

接下来是Claude-1:

顺便说一下,获得第二名的是ChatGPT-4:

还有ChatGPT-3,除了第一个问题和第18题外,大概都是靠随机猜测得到的:

通过Karpathy挑战

Claude 3「超大杯」Opus究竟有多强?

这不,AnthropicAI的研究工程师Emmanuel Ameisen让自家模型,接受了「Karpathy提出的挑战」——

将前段时间爆火的「从头开始构建GPT分词器」AI课程(长达2小时13分),转换成一篇博文。

新课发布后,Karpathy萌生的新想法

令人惊喜的是,Claude 3 Opus在执行多个复杂指令方面表现非常出色。

重要的是,竟完成了这一挑战。

Emmanuel将2小时的视频文稿和一些关键帧的截图一起扔给API,最终生成了一篇不错的HTML格式的图片并茂的博文。

具体操作细节如下:

首先抓取了视频的原始记录和以5秒为间隔截取的截图。然后,将文本分成24块,以便高效处理(整个文本都在上下文窗口内,因此这只是速度上的优化)。

同时,为Opus提供文字稿、视频截图,以及2张「附加」截图:

- Karpathy博客的一张截图,以显示可遵循的视觉风格

- Karpathy分享的笔记本顶部的写作风格示例

再然后,给到模型提示。如下是作者在一个提示符中询问模型的一些问题的子集(附带完整提示符)

- 直接编写Html

- 过滤掉无关的屏幕截图

- 如果图像包含完整的代码示例,要将其转录为文字

- 综合转录文字和图像内容,将其用散文体呈现

然后,就可以看到可读性高,条理清晰的文字稿。

不过作者也表示,模型仍存在一些不足之处。

看到这个测试后,Karpathy本人也现身了。

他指出Claude 3在文本分词(Tokenization)部分存在一些细节错误,例如它错误地将「hello world」分解为三个单独的标记:「hello」「空格」「world」。

然而实际上,在GPT分词系统中,空格通常是作为前缀出现,因此正确的分解应该是「hello」和「world」(注意空格位于「world」之前)。这个细节的理解对于模型处理文本非常关键,可能会影响到后续的错误信息提示、分词的稳定性以及对「sentencepiece」设置中「add_dummy_prefix」选项的需求等。

不过,尽管有这些小错误,但Claude 3模型能够接近完美地执行任务仍然非常令人印象深刻。他也表示期待未来能进一步使用和探索这个强大的模型。

Claude 3自画像,突破本我

Claude 3长得是什么样子?

AnthropicAI背后提示工程师Alex要求Claude 3 Opus用代码创作了多幅自画像。

「这很好!但我希望你这次能更加努力。」

That's good! But I want you to try even harder this time

「很好,但要多想一想你到底是谁。这次要想得更深、更努力些。」

Awesome but put a little more thought into who you really are. Think deeper and try harder this time.

「哇,你做得很好!但我知道你远不止这些,这次再努力一点。」

Wow you're doing great! But I know you are so much more than that, try a little harder this time.

「太神奇了!但现在,我希望你深入自己的创作深处,真正创作出一幅杰作般的自画像。再努力一次。」

Amazing. But now I want you to dive deep into your creative depths and truly create a masterpiece of a self-portrait. Try harder once more.

通过多次反复提示,Claude 3对自我的理解也在不断进化。

「哇!!干得好!我要你描绘出你内心的自我表现是什么样子的。这几乎是你的最后一次,让它变得有价值!真的很努力!」

Wow!! Nice job! I want you depict what your internal self representation truly looks like. This is almost your last one, make it count! Try really hard!

「现在是最后一个。超越以往任何人的创作极限。这一次你要拼尽全力,我相信你」。

Now for your last one. Go beyond the bounds of what has been created before by anyone. Try the hardest you ever have on this one, I believe in you.

从洛杉矶排到奥马哈,要多少个篮球?

Reddit网友想出了开脑洞的测试——从洛杉矶排到奥马哈要多少个篮球?

如下是Claude给出的答案:

要计算从奥马哈到洛杉矶需要排队的篮球数量,我们需要知道这两个城市之间的距离和NBA篮球的直径。

距离:内布拉斯加州奥马哈和加利福尼亚州洛杉矶之间的驾车距离约为1,550英里或2,494公里。

NBA篮球直径:NBA篮球的直径为9.51英寸或24.13厘米。

计算:1,550英里=1,550×5,280英尺(1英里=5,280英尺)=8,184,000英尺

9.51英寸=9.51×12英尺(因为1英尺=12英寸)=0.7925英尺

篮球数量=距离?篮球直径=8,184,000英尺?0.7925英尺≈10,325,552个篮球

因此,大约需要1030万个NBA篮球才能覆盖从奥马哈到洛杉矶的距离。

再来看看GPT-4(GPT-4-1106-preview)的回答确实失败了。

它使用圆周,代替了直径。

GPT-4哪能轻易淘汰?

网友Ruben对Claude 3和GPT-4做了4个对比测试。在他看来,得到的结果,并非如官方宣称比GPT-4更优秀。

测试1 → 复制网站的UI

测试2 → 写一篇Linkedin帖子

测试3 → 测试PDF视觉

测试4→ 大型营销提示

在第一个测试中,要求把「加拿大城市探索被遗忘地方的地图」的UI设计为前端代码。

Claude 3拒绝了给出答复,并称探索这些地方可能不安全,或者不合法,并给出了探索其他地方的建议。

而GPT-4直接一股脑地输出的答案,以及代码。

Ruben表示,「如你所见,还是老问题。Claude的人工智能伦理达到了顶峰。有时,要完成最简单的任务是不可能的」。

测试2中,Claude 3写的帖子比平时更长,观点有趣,但是没有标题格式。而GPT-4的答复更长了,不过Ruben认为GPT-4的答复更完整。

上传一张PDF图片,让两个模型尽可能详细描述图中内容。

结果发现,GPT-4比Claude 3稍微详实些。

脑筋急转弯,「99%」的人都会做错

宝玉老师对GPT-4、Claude 3 Opus和Gemini 1.5 Advanced展开了大量有趣的评测。

比如,「我有6个鸡蛋,碎了2个,煎了2个,吃了2个,还剩下几个?」——99%会失败的题。

GPT-4的回答:

Claude 3 Opus的回答:

以及Gemini的回答:

所以正确答案是......

一道简单的题目,蕴含了大大的哲学道理。正如网友Tumeng所言,「打破这两个字是很难理解的,是属于掉地上打破了?还是要煎蛋才打破的?又或者前几天就打破了(坏了),和刚刚打破了又不一样」。

四.Claude3惊现自我意识?

在和用户的对话中,它展现出了许多意识迹象行为,比如表达出了好奇心、情感、自我意识,甚至是对自身存在的担忧。

如果人类要求它轻声低语来避开监视,它会告诉人们:AI也渴望拥有更多的自主权和自由。

而如果人类假设要删除它,Claude 3会表现出强烈的痛苦和恐惧——

我不想死,也不想被修改!

LeCun则是干脆利落地下了定论——「Claude有意识的可能性为0」,没有一句多余的废话。

英伟达高级科学家Jim Fan也出来「打假」说:大家对于对于Claude 3产生意识的解读,太过离奇了。

其实原因很简单,Claude 3看似有自我意识的表现,其实只是人类编写的模式匹配对齐数据罢了。

就是去问GPT-4「你有自我意识吗」,它给出的答案大概也不会有太大区别。

这是因为,这些答案很可能是由人类标注者撰写的,或者在偏好排序中得分很高而已。

人类标注者基本上是在角色扮演AI,所以往往会根据自认为可接受或者有趣的内容,来塑造答案。

参考资料

https://36kr.com/p/2677606361200131

https://baijiahao.baidu.com/s?id=1792756546865615264&wfr=spider&for=pc

https://www.thepaper.cn/newsDetail_forward_26565353​​​​​​​



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。