当我用大模型回忆一部电影的名字

本文目录：

今天和朋友闲聊时，突然想起了一部文艺片，只记得大概剧情，但是想不起名字了，于是就去问 Kimi，顺便问了问 Claude。

回合一：从错误信息输入到纠正

一开始由于我把藏獒记成了驴，基于错误信息果然两个大模型都无法给出正确答案，在我想起来之后，他们两都得到了正确答案。

尽管听起来两者智商接近，但事实上 Kimi 总是生成很短的答案，没有任何语气词、辅助说明，令人觉得很笃定，但实际是错的，看上去就像一个死记硬背的笨学生，回答的可信度着实令人担忧。

而 Claude 在我修正是藏獒后，它开始说「啊，非常感谢您提供这个重要的更正。您说到"藏獒"而不是"驴"，这个细节极大地帮助我们确定了正确的电影。现在我可以肯定地告诉您，这部电影是：」，很显然，Claude 的回复里有考虑置信度，这点上可以说是吊打 Kimi 了。

基于回合一的一些输出差异，我又调整了问法，直接给出准确的、详细的上下文，二者再次一次性回答正确，其中 Kimi 依旧很简短、肯定，而 Claude 则更详细。

如果前两个回合，还只是 Kimi 在输出风格上的差异，那么第三回合，基于模糊的正确上下文对比中，Kimi 和 Claude 的差距才真正拉大。

我们看到 Kimi 很努力地做了互联网检索，但最终还是很遗憾地输出了错误地答案，而 Claude 则直接能给出正确答案。

出于对这个差异的兴趣，我检阅了一下 Kimi 的参考资料，可以看到以豆瓣、搜狐、知乎为主，一眼看过去大概在 80% 比例以上，从直觉上来说这个信息源应该是不太够的。

其次还有个问题，如果我们不打开这些链接，我们会下意识以为 39 篇参考链接都与目标答案有关，但事实上我们仔细看，答案中有类似「中国西部电影片单」之类的链接。

我们先为它合理化一下，思考一下我们人类的工作流，如果我要找一部记不起名字的片子，我确实可能会去查一下某个榜单，然后从中再找一找相关主题的，尽管费时费力不一定能找到。

接着再从工程角度想一想，它大概还是基于分词的手段进行了多次混检索，比如「西部」、「老人」、「宠物」、「杀」等关键词，它必然是分开了去检索，以至于我们问的是”杀宠物“，结果它已经搜到了“杀人”……

从这个角度上看，以 Kimi 为代表的 RAG 工作目前显然还是较为粗糙的，还有很长的路要走，首先是自己的路要走，其次还有别人的路要走，可谓路漫漫其修远兮啊，加油！

我最近真地挺喜欢让大模型想一些东西，比如我只记得一首歌的第一个词是 so，欧美男生唱的，然后就找 Claude 陪我猜，虽然直到最后它都没猜对歌手名字和歌曲名字，但是它歌词竟然猜对了！

于是，我就开开心心地单曲循环了一晚上，笑死……

所以大模型确实在一定程度上能帮助我们解决一些生活问题，尤其是在找歌、找资料等模糊检索场景，以及翻译、润色、代码优化等部分较为确定性的生产力场景，实在还是令人欣慰的。

另外，国产大模型虽然还有点距离，但表现也挺不错，至少能用！

我猜 Kimi 输出这么简短武断，不一定是它真地不行，而是为了省 token……：）

其他模型未做测试，欢迎大家自行尝试反馈~

以及大家有没有能一键跑多个模型的平台推荐呢？

最后，真地推荐万玛才旦老师的老狗 (豆瓣)，去年在国美现场看的，很震撼，印象深刻！

南川-business-card_without-neurrora.png