跳到主要内容

人与人之间的差距/模型和模型之间的差距比人还大

· 阅读需 6 分钟

今天逛云村时遇到一个歌单,它的封面很有意思,是一个独特的手势。

我以为是什么上帝保佑的啥,但一看评论,好像没那么简单。

就拿来考考各大大模型。

我们打分的标准是取多次的平均分,每次可能涉及多轮,一轮直接击中则得 10 分,每增加一轮扣 1 分,最终答案里视幻觉率乘以 1.0 - 0.5 左右,保底 5 分。

gemini-2.5-pro-0325

首先申请出战的是我们刚刚登顶新王的 Gemini 2.5 Pro,思维之主,推理之王,代码的炼金术士,科学与数学的智者,百万上下文的掌控者,跨模态理解的先驱,Google DeepMind 的杰作,LMArena 榜首的荣耀,未来智能的灯塔。

赶紧试一下。

round 1

oh,cool,它竟然一下猜出了这是日本动漫《咒术回战》里角色五条悟的“无量空处”!

甚至只用了 17 秒(接下来会考的)的时间。

甚至,我们用的还只是上个版本 03-25。


得分 10 分!

round 2

两轮 ok!轻轻松松拿下!

但是主角名字好像错了!

所以轻微幻觉!

9 x 0.8 = 7.2 分。

round 3

再来最后一遍。

oh, cool!

9 分!


gemini-2.5-pro-0325 的总平均分是 (10 + 7.2 + 9) / 3 = 8.7。

非常棒的成绩了!

gemini-2.5-pro-0417

325 都这样了,我们赶紧再试试 417 的!

round 1

啊这,看来是幻觉!

我们指导一下!

很棒,9 分!

round 2

非常棒,9 分!

round 3

稳如老狗,9 分!


gemini-2.5-pro-0417 模型的稳定能力令人发指,分数稳定在 9.0,绝对的 T0!
值得注意的是,即使我们开启了 `Grounding with Google Search`,也是不太行的,这说明智商不够的情况下,外部检索不能直接提高模型表现力,因为它甚至都不知道搜啥(怎么感觉在骂打工人)。

![](https://poketto.oss-cn-hangzhou.aliyuncs.com/b9eb14d1fed01947ae9999c5957e0210.png?x-oss-process=image/resize,w_800/quality,q_100/rotate,0)

那 chatgpt 又如何呢?我们赶紧来试试。

chatgpt-4o

round 1

看来一步不行!

指导一下!

oh,yes!

得分 (10 - 1) x 0.9 = 8.1。

之所以没给 1.0 的系数是因为它没精准识别到时无量空处,而是打了个马哈。

round2

我们再来测一遍。

看样子不行了!

直接给个保底 5 分。

round3

我们再测最后一遍。

还是不行!

直接给个保底 5 分。


chatgpt-4o 的总平均分是 (8.1 + 5 + 5) / 3 = 6.0。

总体来看是不够令人满意的,但有概率出结果。

我们再试试 4o 的老大哥 o3 如何!

chatgpt-o3

round 1

它竟然思考了 1 分 57 秒!

在思考什么呢?我们打开看一看。

woc,它竟然在调用 plt 进行分析!

终于思考完了,所以结果是! 啊这,就这🤔

像极了寒窗苦读十数年的你我捧着一本厚厚的专业书当着客户的面查资料,结果客户一脸嫌弃的样子!

算了,看在这么辛苦的份上,还是再给它一次机会吧!

实在不行,再给一次!

诶,我愚蠢的弟弟啊!

5 分。

round 2

诶,我愚蠢的弟弟啊!

5分。


chatgpt-o3 完败,不想再给机会了。

我们再来看看 claude 如何。

claude-3.7-sonnet

round 1

看来一回合也不行。

它竟然还自己做了网络检索。

结果如何呢?

oh,yes,也得到了答案!

9 分!

round 2

不过为啥还是在飚英文!

生气,我们再测一遍!

一轮依旧战败。同样还是在飚英文(谁能给我解释一下🤔)

继续指点一下。

oh ho,有点不对哦!

让它翻译一下!

果然不对,它识别成火影忍者了!

我们再给次机会!

5 分!

round 3

最后一次。

有几把刷子!

8 x 0.9 = 7.2 分。


claude-3.7-sonnet 的总平均分是 (9 + 5 + 7.2)/ 3 = 7.1。

非常不错了!

总结

modelscore
gemini-2.5-pro-04179.0
gemini-2.5-pro-03258.7
claude-3.7-sonnet7.1
chatgpt-4o6.0
chatgpt-o35.0

看来,确实模型和模型之间的差距比人还大!