author: #公众号:南川随笔
date: 2024-09-28
背景
- 尝试直接基于大模型 C 端产品
- 尝试基于浏览器插件
- 尝试基于后端自动化
- 尝试基于前端自动化
结论
背景
最近正在注册公司,突然卡在了经营范围的填写上,遇事不决先学友商。
- 打开表格
- 列几家公司的名字:百川、智谱、月之暗面、阶跃……
- 列几个指标项:公司全名、公司法人、注册资本、经营范围……
- 打开企查查
- 手动一一输入这几家公司的名字……
- 手动提取对应的内容到表格……
发现问题:这个过程很显然是可以高度自动化的,其中最小环节也是核心环节也就是打开目标公司的企查查页面,然后提取网页内容。
考虑到调研公司是一个常见的需求(包括:新增公司、新增指标项等),所以,我们应该实现该任务的自动化。
在经历 2 小时的研究之后,我们得到了:
- 一份大模型行业主要公司主要指标项的透视表
- 一份适用于企查查导出公司数据的 web-scrape sitemap
- 一个在企查查页面直接导出结构化数据的 chrome 插件
- 一个直接输入公司列表就能生成透视表的网站
以下开始我们的冒险之旅。
1. 尝试直接基于大模型 C 端产品
考虑到目前大模型已经初步具有强大的信息整合(甚至抓取能力),因此我们优先尝试使用 C 端的大模型产品解决我们的问题。
我能第一时间想到的几个大模型是 Claude、GPT-4o、pplx、秘塔。
Claude
首先是最近被 #李继刚老师 一手捧火的 claude ,claude 最大的优势一个是指令遵循的能力较强,一个是 artifact 十分友好,它的输出如下:
但得到这个表格不太容易,因为存在幻觉问题,以及排版问题。
关于幻觉,它的解决办法也十分简单粗暴:
- 直接基于自己的经验妄自瞎改。例:在我指出智谱不应该是股份公司的时候,它改成了责任公司,实际全称是「北京智谱华章科技有限公司」。
- 直接置空。例:在我指出月之暗面法人是错误的时候,它改成了「未知」。
而关于排版问题,这个模型层面不背锅,主要是 markdown 格式本身在表格渲染上就比较麻烦,尤其是某一个单元格非常宽的时候,需要加一些限定修饰语或者升级成 html 的表格才行,这里仅做一个简单的试验让大家明白在不加悉心指导的前提下大模型也无法完成这样看似简单实则不简单的事。
GPT-4o
hmmm,不多说了。
PerplexityAI
pplx 一度是全村最靓的仔,让一众二线大模型公司/创业公司拍腿直呼:原来包壳也能胜利!
但加入各种来源校验后的实际效果如何呢?
依旧幻觉可怕地离谱。
秘塔搜索
pplx 不行,那国产之光秘塔呢,我们赶紧试一试!
乍一看表格结果”似乎“靠谱多了。
但是这右边的思维导图是怎么回事……
不多评价了。。
跃问
一线大模型公司阶跃星辰自己的信息整合能力如何呢?
我试了一下阶跃的跃问,在未登录的情况下始终无法生成表格,登录后就可以,可能是不同登录状态背后使用的模型不太一样(不确定)。
输出结果里,阶跃自己的信息是完全正确的,其他公司有标的选错的问题,智谱选了上海的某家,但法人却是北京的,说明这里不是结构化按行绑定的。
在明确标的后,进一步查询,可以看到信息基本正确了,从这点上看,还是具备与用户人机结合一起研究的能力的,信息搜索能力不错,幻觉问题相比其他几家要好很多。
关于使用大模型的核心问题
今日在我们 CS 魔法社群内交流时,马占凯老师比较了”不同信息源“的搜索结果,指出「大家有严肃问题,一定要反复核实,否则AI搜索也会有很大问题」,私以为也颇有启发。
2. 尝试基于浏览器插件
基于上述大模型产品的体验,在实际工作流里,我们还需十分谨慎。
个人认为在模型智商不错的情况下(例如 claude),总结整理场景还是挺靠谱的,但搜索能力尙比较薄弱。
一方面因为大量高质量的信息都藏在了各个门户网站里,大模型缺少获取的渠道,即使获取了也往往一视同仁,缺少像正常人一样对搜索结果基于经验进行主动分析的过程。
3. 尝试基于后端自动化
4. 尝试基于前端自动化
结论
注
- 本文中所有大模型平台的聊天记录导出,均基于 CS 魔法社开源的浏览器插件,目前已经支持Chatgpt、Claude、Perplexity、秘塔、阶跃星辰,欢迎大家多多支持,多多 star:https://github.com/cs-magic/exts_chrome_chatbot-exporter