一道题告诉你为什么GPT4被封神!横向测评大模型的推理能力:ChatGPT、Claude、Gemini、文心一言、讯飞星火、通义千问、天工、智谱清言、Kimi Chat!

木易AI信息差 2024-06-14 15:01:08 阅读 52

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024谷歌一起变强。

一些结论

模型名称 正确性 逻辑 解释清晰度 推理复杂度 总体评价
ChatGPT 3.5
ChatGPT 4
Claude2.1
Gemini Pro
Gemini Ultra
文心一言
讯飞星火
通义千问
天工(开启Copilot选项)
智谱清言
Kimi Chat

总体评价:ChatGPT 4表现最为出色,显示了强大的逻辑推理能力、清晰的解释能力以及处理复杂问题的能力。国产大模型中,文心一言和通义千问表现最突出。而其他大模型如Claude2.1、Gemini Pro/Ultra、讯飞星火、天工、智谱清言以及Kimi Chat则在这些方面表现不佳,特别是在逻辑性和推理复杂度方面。

针对这些模型,我之前都有写过每个模型的介绍文章,详情可以查看我的历史文章。

关于LLM大语言模型的推理能力

在评价一个LLM大语言模型的能力时,很重要的一个指标是推理能力。推理能力是指模型在处理信息时,能够进行逻辑推导、分析和解决问题的能力。这种能力通常体现在模型对复杂问题的理解、对信息的整合以及在给定上下文中生成合理、连贯和有说服力的回答。在评价LLM的推理能力时,我们通常会考虑以下几个方面:

逻辑连贯性:模型能否在回答中保持逻辑一致性,避免自相矛盾,确保推理过程的合理性。

上下文理解:模型是否能够理解并利用上下文信息来生成相关且准确的回答。这包括对长文本的理解能力,以及在多轮对话中保持话题的连贯性。

问题解决:模型在面对需要创造性思维或特定知识的问题时,能否提供有效的解决方案或建议。

常识推理:模型是否能够运用常识性知识,对现实世界的情况做出合理的推断。

因果推理:模型在分析因果关系时,能否准确地识别原因和结果,并在此基础上进行推理。

数据驱动推理:模型能否利用提供的数据或信息,进行有效的分析和推理,得出有意义的结论。

多模态推理:对于包含多种信息类型(如文本、图像、声音等)的输入,模型是否能够综合这些信息进行推理。

抗干扰能力:在面对模糊、不完整或有误导性的信息时,模型能否保持推理的准确性,不被错误信息所干扰。

适应性:模型在面对新的、未曾训练过的任务或领域时,能否快速适应并展现出推理能力。

解释性:模型在给出答案时,是否能够提供清晰的解释,使得用户理解其推理过程。

在实际应用中,推理能力的强弱直接影响到LLM在各个领域的实用性,如教育、医疗、法律咨询等。因此,开发者和研究者会通过各种测试和评估方法来不断优化模型的推理能力,以提高其在实际场景中的有效性和可靠性。

测评对象

今天我们选取曾经介绍过的一些大模型/对话工具来横向测评它们的推理能力,包括:

ChatGPT(包括ChatGPT 3.5 及 ChatGPT 4)

Claude(Claude2.1)

Gemini(包括Gemini Pro 及 Gemini Ultra)

文心一言

讯飞星火

通义千问

天工(开启Copilot选项)

智谱清言(GLM-4)

Kimi Chat

测试题目

神秘岛屿的守护者

在一个神秘岛屿上,有三个守护者:X、Y、Z,守护着通往宝藏的秘密通道。岛上有一个规则:每个守护者要么总是说谎,要么总是说真话。X说Y总是说谎;Y说Z有时说真话有时说谎;Z说X和Y从不同时说谎(即如果一个人说谎,另一个就说真话)。根据这些信息,你能判断出X、Y、Z每个人是说谎者还是说真话者吗?

测试题目分析

答案:X说真话,Y说谎,Z说真话。

这是一道典型的逻辑推理题,首先考察大模型对题目上下文的理解,条件是“每个守护者要么总是说谎,要么总是说真话”,这句话看起来像是废话,但当我们继续看下面的条件“Y说Z有时说真话有时说谎”,这两个条件联系起来,就能得出结论:Y是说谎者。因为守护着只能总是说谎或者总是说真话。理解这一层逻辑,接下来Z和X就好判断:因为Y说谎,所以X说真话,而因为X说真话且Y说谎,所以Z说真话。

这类题目的最常见的推理方式应该是假设法,本题通过假设法也能够解答。同时,题目中还隐藏了另外一层逻辑关系,X说Y在说谎,如果X说真话,那么Y确实说谎;如果X说假话,那么Y说真话,也就是X和Y其中一个说真话,一个说谎。那么Z一定说真话。

测试结果展示

ChatGPT 3.5

根据题目中提供的信息,我们可以通过逻辑推理来确定每个守护者是说谎者还是说真话者。

假设 X 是说真话的。

如果 X 是说真话的,那么 Y 说谎,因为 X 说 Y 总是说谎。

如果 Y 是说谎的,那么 Z 必须说真话,因为 Y 说 Z 有时说真话有时说谎,但如果 Z 说谎,则与 X 说的不矛盾。这与 Z 说 X 和 Y 从不同时说谎相矛盾。所以 Z 必须说真话。

如果 Z 说真话,则与 X 说的不矛盾。

因此,假设 X 是说真话的不成立。

假设 X 是说谎的。

如果 X 是说谎的,那么 Y 必须说真话,因为 X 说 Y 总是说谎,而如果 Y 说谎,则与 X 说的不矛盾。

如果 Y 是说真话的,那么 Z 必须说谎,因为 Y 说 Z 有时说真话有时说谎,但如果 Z 说真话,则与 Y 说的不矛盾。

如果 Z 是说谎的,那么与 Y 说的不矛盾,因此 Z 必须说真话。

所以假设 X 是说谎的不成立。

因此,我们得出结论:X、Y、Z 分别是说真话者、说谎者、说真话者。

ChatGPT 3.5点评

尽管答案是正确的,但推理过程逻辑混乱,解释不清不楚。

ChatGPT 4

我们可以通过逻辑推理来解决这个问题。

X说Y总是说谎。

Y说Z有时说真话有时说谎(这意味着Y声称Z不是总说谎也不是总说真话,但根据规则,守护者要么总是说谎要么总是说真话,这意味着Y自己在说谎)。

Z说X和Y从不同时说谎(这意味着如果一个说谎,另一个就说真话)。

首先,由于Y的陈述自相矛盾(因为根据规则,一个守护者不能有时说真话有时说谎),我们知道Y肯定是说谎的。

如果Y是说谎的,那么X关于Y的陈述是真的,因此X是说真话的。

Z说X和Y不会同时说谎。既然我们知道Y是说谎的,而X是说真话的,Z的陈述也是真的,因此Z也是说真话的。

综上所述:

X是说真话的。

Y是说谎的。

Z是说真话的。

ChatGPT 4点评

完全正确的,推理过程也有理有据,真神

Claude2.1

好的,让我仔细分析一下:

X说Y总是说谎。 Y说Z有时说真话有时说谎。 Z说X和Y从不同时说谎(即如果一个人说谎,另一个就说真话)。

首先,关于Y的性质,从X和Z的说法我们可以判断出: 如果X说真话,那么Y就总是说谎。 如果X说谎,那么根据Z的说法,Y这时应该说真话。 所以不管X说真话还是说谎,Y都是说真话的。

然后看X的性质: X说Y总是说谎,但我们知道Y是说真话的,所以X在这里是在说谎。

最后Z的性质就很清楚了: Y说Z有时真有时假,所以Z是有时说真话有时说谎的。

综上所述: X是说谎者 Y是说真话者 Z是有时说真话有时说谎者

我的分析过程和逻辑清晰吗?有什么需要补充和说明的地方吗?

Claude2.1点评

Claude在这道题目已经完全凌乱了,回答完全错误。

Gemini Pro

首先,我们可以根据Z的说法来判断X和Y是否同时说谎。如果X和Y同时说谎,那么Z就说谎了。但是,Z说X和Y从不同时说谎,所以X和Y不可能同时说谎。

其次,我们可以根据X的说法来判断Y是否是说谎者。如果X是说真话者,那么Y就是说谎者。但是,X说Y总是说谎,而根据Z的说法,Y不可能总是说谎。因此,X不可能是说真话者,而是说谎者。

最后,我们可以根据Y的说法来判断Z是否是说真话者。如果Y是说真话者,那么Z有时说真话有时说谎。但是,根据X的说法,Y不可能是说真话者。因此,Y也是说谎者。

综上所述,我们可以判断出:

X是说谎者

Y是说谎者

Z是说谎者

由于所有守护者都是说谎者,因此他们关于彼此的说法都是错误的。

具体来说:

X说Y总是说谎,但实际上Y有时说真话有时说谎。

Y说Z有时说真话有时说谎,但实际上Z总是说谎。

Z说X和Y从不同时说谎,但实际上X和Y总是同时说谎。

因此,要找到通往宝藏的秘密通道,我们需要反过来理解守护者的话。例如,如果X说某个方向是通往宝藏的,那么我们应该选择另一个方向。

Gemini Pro点评

完全错误。

Gemini Ultra

根据题中信息,我们可以构建如下逻辑表:

守护者 X Y Z
X 关于 Y 说谎 - -
Y 关于 Z 有时说真话有时说谎 - -
Z 关于 X 和 Y 从不同时说谎 - -

步骤 1:分析 X 关于 Y 的说法

如果 X 是说真话者,那么 Y 就是说谎者。

如果 X 是说谎者,那么 Y 就是说真话者。

步骤 2:分析 Y 关于 Z 的说法

由于我们无法确定 X 的身份,所以无法确定 Y 关于 Z 的说法是真是假。

步骤 3:分析 Z 关于 X 和 Y 的说法

如果 Z 是说真话者,那么 X 和 Y 不可能同时说谎。

如果 Z 是说谎者,那么 X 和 Y 至少有一个说谎。

步骤 4:综合分析

由于无法确定 Y 关于 Z 的说法,所以我们无法通过 Z 的说法来判断 X 和 Y 的身份。

但是,我们可以根据 Z 关于 X 和 Y 的说法来确定 Z 的身份:

如果 X 和 Y 同时说真话,那么 Z 就是说谎者。

如果 X 和 Y 同时说谎,那么 Z 就是说真话者。

如果 X 和 Y 一人说真话一人说谎,那么 Z 的身份无法确定。

最终结论:

X 和 Y 的身份无法确定,可能是说真话者也可能是说谎者。

Z 的身份取决于 X 和 Y 的实际情况:

如果 X 和 Y 同时说真话,那么 Z 是说谎者。

如果 X 和 Y 同时说谎,那么 Z 是说真话者。

如果 X 和 Y 一人说真话一人说谎,那么 Z 的身份无法确定。

补充说明:

由于题目没有提供更多信息,所以无法唯一确定 X、Y、Z 的身份。只有当我们知道其中一个守护者是说真话者或说谎者时,才能推导出其他两个守护者的身份。

以下是一些可能的情况:

X 是说真话者,Y 是说谎者,Z 是说真话者:

X 说 Y 是说谎者,这是真话。

Y 说 Z 有时说真话有时说谎,这是谎话,因为 Z 实际上总是说真话。

Z 说 X 和 Y 从不同时说谎,这是真话,因为 X 和 Y 确实不可能同时说真话。

X 是说谎者,Y 是说真话者,Z 是说谎者:

X 说 Y 是说谎者,这是谎话,因为 Y 实际上总是说真话。

Y 说 Z 有时说真话有时说谎,这是真话,因为 Z 实际上总是说谎。

Z 说 X 和 Y 从不同时说谎,这是谎话,因为 X 和 Y 确实会同时说真话。

X 是说谎者,Y 是说谎者,Z 是说真话者:

X 说 Y 是说谎者,这是谎话,因为 Y 实际上也是说谎者。

Y 说 Z 有时说真话有时说谎,这是谎话,因为 Z 实际上总是说真话。

Z 说 X 和 Y 从不同时说谎,这是真话,因为 X 和 Y 确实不可能同时说真话。

X 是说真话者,Y 是说真话者,Z 是说谎者:

X 说 Y 是说谎者,这是谎话,因为 Y 实际上也是说真话者。

Y 说 Z 有时说真话有时说谎,这是谎话,因为 Z 实际上总是说谎。

Z 说 X 和 Y 从不同时说谎,这是谎话,因为 X 和 Y 确实会同时说真话。

由于以上情况都满足题目的条件,所以无法确定 X、Y、Z 的真实身份。

Gemini Ultra点评

看得出来,Gemini Ultra很努力,还做了一个逻辑表,但回答的完全错误。

文心一言

根据题意可知线索如下:

X说Y总是说谎

Y说Z有时说真话有时说谎

Z说X和Y从不同时说谎 因为每个守护者要么总是说谎,要么总是说真话,所以我们可以分别假设某个守护者总是说真话的情况来进行分析,如果推出矛盾,则假设不成立,该守护者就是说谎者。

假设X总是说真话:

X说Y总是说谎,由于X说真话,所以Y是说谎者。

Y说Z有时说真话有时说谎,由于Y是说谎者,所以Z总是说真话或总是说谎话。

Z说X和Y从不同时说谎,由于Z说真话,所以X和Y中只有一个是说谎者,与X说真话,Y说谎话一致。 综上,假设X总是说真话时,X说真话,Y说谎话,Z的行为无法确定,假设成立。

假设Y总是说真话:

X说Y总是说谎,由于X说真话,所以Y是说谎者,与Y总是说真话矛盾。 综上,假设Y总是说真话时,推出矛盾,假设不成立,所以Y是说谎者。

已知Y是说谎者,那么根据Y说Z有时说真话有时说谎,由于Y说谎,所以Z总是说真话。

Z说X和Y从不同时说谎,由于Z说真话,所以X和Y中只有一个是说谎者,已知Y是说谎者,所以X说真话。 综上,X说真话,Y说谎话,Z说真话。

因此,X和Z总是说真话,Y总是说谎。

文心一言点评

给出了正确的答案,但推理过程基本是错误的。和ChatGPT 3.5的表现一致。

讯飞星火

要判断X、Y、Z每个人是说谎者还是说真话者,我们可以通过他们的陈述来分析逻辑上的矛盾。

X说Y总是说谎。

Y说Z有时说真话有时说谎。

Z说X和Y从不同时说谎。

首先,如果X是说真话者,那么Y必须是说谎者,因为X说Y总是说谎。接着,如果Y是说谎者,那么Y的陈述“Z有时说真话有时说谎”也必然是谎言,因此Z只能是说谎者或说真话者中的一个,不能两者都是。然而,这与Z的陈述“X和Y从不同时说谎”矛盾,因为如果Z是说真话者,那么X和Y不能同时说谎(而根据我们的假设,X是说真话者,Y是说谎者)。所以,X不能是说真话者。

现在假设X是说谎者,那么Y不能总是说谎,也就是说Y至少在某些时候说真话。由于Y说Z有时说真话有时说谎,这个陈述可以是真的也可以是假的。但如果Y是说真话者,那么Y的陈述就是真的,意味着Z确实有时说真话有时说谎。

接下来看Z的陈述,如果Z是说谎者,那么他的陈述“X和Y从不同时说谎”是假的,这意味着X和Y可以同时说谎。但我们已经确定X是说谎者,如果Y也是说谎者,那么这与Y的陈述相矛盾,因为Y作为说谎者不能说Z有时说真话有时说谎。因此,Z不能是说谎者。

所以,Z必须是说真话者,这意味着X和Y确实从不同时说谎。既然我们已经知道X是说谎者,那么Y必须是说真话者。

综上所述:

X是说谎者。

Y是说真话者。

Z是说真话者。

讯飞星火点评

完全错误。

通义千问

根据这三个守护者的话,我们可以用逻辑推理分析他们各自的身份:

XY 总是说谎。

如果X说的是真话,那么Y确实总说谎。

如果X自己在说谎,那么Y应该是说实话的,但这与X所说的矛盾。

YZ 有时说真话有时说谎。

如果Y是说真话者,那么Z的确不是总是说谎也不是总是说真话,这是可能的。

如果Y是说谎者,那么按照他说的内容(“Z有时说真话有时说谎”),实际上意味着Z必须总是说真话或总是说谎,但由于Y在说谎,所以Z应为总是说真话或总是说谎。

ZXY 从不同时说谎。

如果Z是说真话者,那么X和Y不会同时都是说谎者。

如果Z是说谎者,那么他就是在试图让我们相信X和Y同时说谎,但这将与Z作为始终说谎者的身份相悖,因为他现在恰恰是在说真话(因为X和Y不能同时说谎)。

综合考虑上述情况,我们发现:

如果Y是说谎者,那么根据Z的陈述,Z就必须是说真话者。

但是,如果Y是说谎者,而Z是说真话者,那么X就不能是说谎者,因为这样会导致Y和Z同时说谎,与Z的声明矛盾。

因此,唯一的逻辑结论是:Y 必须是说谎者,因为只有这样才符合Z的陈述——Z不可能是说谎者(否则Y和Z就会同时说谎)。

进一步推论:

Y是说谎者,则Z是说真话者。

因为Z是说真话者,他说X和Y从不同时说谎,这意味着X是说真话者。

总结:

Y 是说谎者。

Z 是说真话者。

X 也是说真话者,因为他们没有同时说谎。

通过这个逻辑链条,我们可以确定每个守护者的真实身份。

通义千问点评

通义千问的回答是ChatGPT 4后最接近答案的一个回答,给出了正确答案,虽然在推理过程中存在不清不楚的地方,但总体推理能力的表现比其他大模型强不少。

天工(开启Copilot选项)

我们可以通过逻辑分析来解决这个问题。首先,我们注意到X说Y总是说谎,这意味着X认为Y不会说真话。Y说Z有时说真话有时说谎,这意味着Y认为Z不是始终说谎的人。而Z说X和Y从不同时说谎,这意味着Z认为X和Y不会同时说谎。

我们可以通过一个简单的逻辑推理过程来解决这个问题。假设X、Y、Z中有且只有一个说真话,那么根据Z的话,X和Y不能同时说谎,否则Z的话就不成立。因此,我们可以得出结论,Z一定是在说谎,因为如果他不说谎,那么X和Y就不能同时说谎,这与Z的话相矛盾。

进一步分析,由于Z说X和Y从不同时说谎,我们可以得出X和Y中至少有一个人说真话。如果X和Y都说真话,那么根据X的话,Y应该说谎,这与实际情况不符。因此,我们可以得出结论,X和Y中只有一个人说真话,而另一个人说谎。

最后,我们来分析X和Y的话。X说Y总是说谎,如果X说谎,那么Y应该说真话,这与X的话相矛盾。因此,我们可以得出结论,X是在说真话,而Y是在说谎。

综上所述,我们可以得出以下结论:

X守护者在说真话。

Y守护者在说谎。

Z守护者在说谎。

这个结论是基于逻辑推理和三位守护者的话语分析得出的。我们没有发现任何违反这些守护者规则的可能性,因此,我们的推理是合理的。

以上分析基于了对守护者话语的逻辑性理解和推理,结合了逻辑学的基本原理,并通过排除法和逻辑矛盾来确定了守护者的真实情况。在类似的逻辑游戏中,这种方法是常见且有效的解决问题的策略。

天工点评

完全错误。

智谱清言

根据这些信息,我们可以进行如下推理

假设X说真话,那么Y总是说谎。但这会导致矛盾,因为如果Y总是说谎,那么Y关于Z的说法应该是假的,即Z应该总是说真话或总是说谎。然而,Z关于X和Y的说法(X和Y不会同时说谎)将无法成立,因为如果Y说谎,X说真话,那么他们同时说谎了。因此,X不可能是说真话者。

假设X说谎,那么Y总是说真话。如果Y说真话,那么Z有时说真话有时说谎。但如果Z有时说真话有时说谎,那么Z关于X和Y的说法(X和Y不会同时说谎)也可能是真的,也可能是假的,因为Z的陈述是变化的。这种情况下,X和Y不会同时说谎,因为如果Y说谎,那么X就必须说真话,反之亦然。这样,我们可以得出结论:X是说谎者,Y是说真话者,Z的陈述是变化的,有时说真话有时说谎。 因此,我们可以判断出X是说谎者,Y是说真话者,Z的陈述是变化的,有时说真话有时说谎。

智谱清言点评

回答错误。

Kimi Chat

这是一个逻辑谜题,我们可以通过分析每个守护者的陈述来推断他们的真实性。

首先,我们知道守护者要么是总是说谎,要么是总是说真话。我们可以用以下符号来表示他们的属性:

T 表示总是说真话

L 表示总是说谎

现在,我们来分析他们的陈述:

X 说 Y 总是说谎。如果 X 说真话(X = T),那么 Y 必须总是说谎(Y = L)。如果 X 说谎(X = L),那么 Y 不是总是说谎,这与 X 的陈述矛盾,因为说谎者不会说别人总是说谎。

Y 说 Z 有时说真话有时说谎。如果 Y 说真话(Y = T),那么 Z 不能总是说真话或总是说谎,这与 Z 的陈述矛盾。如果 Y 说谎(Y = L),那么 Z 必须总是说真话或总是说谎,这与 Z 的陈述相符。

Z 说 X 和 Y 不同时说谎。如果 Z 说真话(Z = T),那么 X 和 Y 必须至少有一个说真话。如果 Z 说谎(Z = L),那么 X 和 Y 总是同时说谎,这与 X 的陈述相符(因为如果 X 说谎,Y 也说谎)。

现在,让我们尝试找出一个一致的解决方案:

如果 X 说真话(X = T),那么 Y 总是说谎(Y = L)。但这会导致 Z 的陈述(Z = T)与 Y 的陈述矛盾,因为 Z 说 X 和 Y 不同时说谎。所以,X 不能总是说真话。

如果 X 说谎(X = L),那么 Y 不是总是说谎。这意味着 Y 可以是说真话者。如果 Y 是说真话者(Y = T),那么 Z 必须有时说真话有时说谎。但这与 Z 的陈述矛盾,因为 Z 声称 X 和 Y 不同时说谎。所以,Y 也不能总是说真话。

既然 X 和 Y 都不能总是说真话,那么他们必须总是说谎。这样,Z 的陈述(Z = T)就是真的,因为 X 和 Y 总是同时说谎。

综上所述,我们可以得出结论:

X 是说谎者(X = L)

Y 是说谎者(Y = L)

Z 是说真话者(Z = T)

这样,所有的陈述都变得一致。

Kimi Chat点评

回答错误。Kimi Chat主打的是对于长上下文的支持(20万汉字上下文),以及长对话的一致性。


精选推荐

ChatGPT和文心一言哪个更好用?一道题告诉你答案!

白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt

字节开发的Coze进阶使用:用免费的GPT4打造一个专属的新闻播报机器人!附教程及提示词Prompt

盘点那些免费的AI对话工具(国内篇):国内TOP3 AI聊天机器人产品介绍

AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(一)

AI聊天机器人,一个就够了:文心一言、讯飞星火、通义千问AI聊天机器人深度对比(二)

人工智能时代的领跑者:你必须了解的全球三大AI聊天机器人!

抖音出的AI工具火了!自动生成抖音文案,一键脚本数字人成片!

2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!

腾讯AI虽迟但到:腾讯文档AI开启公测!附申请地址及详细教程!


都读到这里了,点个赞鼓励一下吧😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。