本文目录:
- 回合一:从错误信息输入到纠正
- 回合二:基于详细的正确上下文
- 回合三:基于模糊的正确上下文
- RAG 真地好用吗
今天和朋友闲聊时,突然想起了一部文艺片,只记得大概剧情,但是想不起名字了,于是就去问 Kimi,顺便问了问 Claude。
回合一:从错误信息输入到纠正
一开始由于我把藏獒记成了驴,基于错误信息果然两个大模型都无法给出正确答案,在我想起来之后,他们两都得到了正确答案。
尽管听起来两者智商接近,但事实上 Kimi 总是生成很短的答案,没有任何语气词、辅助说明,令人觉得很笃定,但实际是错的,看上去就像一个死记硬背的笨学生,回答的可信度着实令人担忧。
而 Claude 在我修正是藏獒后,它开始说「啊,非常感谢您提供这个重要的更正。您说到"藏獒"而不是"驴",这个细节极大地帮助我们确定了正确的电影。现在我可以肯定地告诉您,这部电影是:」,很显然,Claude 的回复里有考虑置信度,这点上可以说是吊打 Kimi 了。
回合二:基于详细的正确上下文
基于回合一的一些输出差异,我又调整了问法,直接给出准确的、详细的上下文,二者再次一次性回答正确,其中 Kimi 依旧很简短、肯定,而 Claude 则更详细。
回合三:基于模糊的正确上下文
如果前两个回合,还只是 Kimi 在输出风格上的差异,那么第三回合,基于模糊的正确上下文对比中,Kimi 和 Claude 的差距才真正拉大。
我们看到 Kimi 很努力地做了互联网检索,但最终还是很遗憾地输出了错误地答案,而 Claude 则直接能给出正确答案。
RAG 真地好用吗
出于对这个差异的兴趣,我检阅了一下 Kimi 的参考资料,可以看到以豆瓣、搜狐、知乎为主,一眼看过去大概在 80% 比例以上,从直觉上来说这个信息源应该是不太够的。
其次还有个问题,如果我们不打开这些链接,我们会下意识以为 39 篇参考链接都与目标答案有关,但事实上我们仔细看,答案中有类似「中国西部电影片单」之类的链接。
我们先为它合理化一下,思考一下我们人类的工作流,如果我要找一部记不起名字的片子,我确实可能会去查一下某个榜单,然后从中再找一找相关主题的,尽管费时费力不一定能找到。
接着再从工程角度想一想,它大概还是基于分词的手段进行了多次混检索,比如「西部」、「老人」、「宠物」、「杀」等关键词,它必然是分开了去检索,以至于我们问的是”杀宠物“,结果它已经搜到了“杀人”……
从这个角度上看,以 Kimi 为代表的 RAG 工作目前显然还是较为粗糙的,还有很长的路要走,首先是自己的路要走,其次还有别人的路要走,可谓路漫漫其修远兮啊,加油!
大模型确实提升了很多幸福感
我最近真地挺喜欢让大模型想一些东西,比如我只记得一首歌的第一个词是 so,欧美男生唱的,然后就找 Claude 陪我猜,虽然直到最后它都没猜对歌手名字和歌曲名字,但是它歌词竟然猜对了!
于是,我就开开心心地单曲循环了一晚上,笑死……
所以大模型确实在一定程度上能帮助我们解决一些生活问题,尤其是在找歌、找资料等模糊检索场景,以及翻译、润色、代码优化等部分较为确定性的生产力场景,实在还是令人欣慰的。
另外,国产大模型虽然还有点距离,但表现也挺不错,至少能用!
我猜 Kimi 输出这么简短武断,不一定是它真地不行,而是为了省 token……:)
其他模型未做测试,欢迎大家自行尝试反馈~
以及大家有没有能一键跑多个模型的平台推荐呢?
最后,真地推荐万玛才旦老师的老狗 (豆瓣),去年在国美现场看的,很震撼,印象深刻!