题图由我厂AI生成
欧神大模型终于研发成功了
一、副驾驶copilot
自从chatGPT诞生以来,虽然AI已经可以聊天、绘画、做音频和视频,但是很多人还是认为AI不能承担严肃应用的工作。
尽管十年前,医院就已经用AI分析片子,准确率达到90%以上了,但是普通人接触不到,所以了解不深。
简单的说,对于普通人来说,现在的感觉就是,看起来AI很强大,但是似乎与自己的生活无关。
这种感觉似乎也有一定的道理,那就是“大模型幻觉”。
简单的说,就是AI有些时候,它会胡编乱造,这样就导致准确性不是很高。
如何降低“大模型幻觉”,这个在当前可是世界级的难题。
微软提出了一个概念,AI可以作为copilot,就是副驾驶的意思。
微软本身就有一个产品就叫copilot。
副驾驶可以帮你完成大量繁琐的工作,但是决断还是要人类来做。
那么作为副驾驶,AI的表现怎么样呢?
最近大量的AI公司,都推出了自己的编码助手,比如微软的GitHub copilot,豆包MarsCode,阿里的通义灵码,百度的文心快码等等。
很多创业公司,也单独发布了编码的大模型,看来是比较看好这块市场。
编码这种事情,是一丁点都不能错的,一个字母,一个标点符号都不能错。
这个是严肃得不能再严肃的应用。
那么AI在这个领域表现怎么样呢?
实际情况是:效果相当的好,极大的提升了程序员的效率。
豆包 MarsCode在字节内部,有70%的人在用,AI每个月贡献百万行代码。
李彦宏讲,在百度内部,有30%的代码都是AI生成的。
那么,在房圈,要是有个这样的副驾驶,可以帮你回答各种问题,比如地段、装修、户型等等,省掉你的各种工作,辅助你决策,那就太好了。
但是还是那个问题,就是“大模型幻觉”,准确率是一个大问题。
解决准确率的问题,通常采用大模型微调和RAG(Retrieval-Augmented Generation)检索增强生成技术等等。
就是你得给大模型准确的参考信息,才能减少大模型幻觉,提高准确率。
检索增强生成,市面上就有4-5种工具,你马上就能做出东西,但是在提高准确率方面,简直是一言难尽。
典型的情况是:一天出Demo,半年搞调优,一年未上线。
因为提高准确率实在是太难了。
首先你对于语料的搜索要特别准确,AI才能回答准确,但是做搜索,本身就是极难的事情。
要是做搜索不难,那就不是只有谷歌、百度几家独大了,连微软、360这样的公司赶上他们都难。
我们内部,其实一直有个进行楼市分析的工具,但是并不是用AI的。
自从上了AI之后,准确率一直就是问题,所以也没有对外开放,就这么勉强用着。
就楼市这个数据量,那倒也不至于上Elastic search这种大型的搜索组件。
有一个周末,我实在不能忍受,就手写了一个小型的搜索引擎。
再加上模型微调,两方面结合,AI的准确率一下子就提升上去了。
现在的大模型叫各种名字,比如文心一言、通义千问、星火、书生、豆包等等。
既然是做一个关于楼市的大模型,必然少不了欧神的语料。
所以,我们的大模型的名字,比别的模型霸气多了。
名字就是:欧神大模型。
下面我们看看效果到底如何。
二、测评效果
首先第一个挑战的项目,就是“大海捞针”。
就是文档中有一句话,你直接问,看大模型能不能从海量文字里面捞出来。
我们的问题是:
国际公认的宝石是哪四种?
这个问题,欧神曾经提到过。
回答是:国际公认的宝石是红宝石、蓝宝石、钻石和祖母绿。
完全正确。
第二项,概念理解。
问题:经济学第一定律是什么?
回答完全正确,dT>0,没有一句废话。
同样的问题,文心一言说了一大堆,没说到重点。
下面的问题,文心一言同样没有一个抓住重点的,就不展示了。
问题:经济学第二定律是什么?用一句话描述
回答完全正确。
问题:经济学第三定律是什么?用一句话描述
回答完全正确。
第三项测试:行话是否可以理解,就是针对一个行业特有的术语测试。
问题:凤变冰是什么意思?
AI知道凤变冰是什么,能说个大概。
进一步追问,为什么叫凤变冰?
AI知道这个名词的由来,而且对于凤姐表达比较委婉。
问题:A8是什么意思?
A8是1000万人民币,而且AI强调了是净资产。
第四项:人物关系。
这个最好拿欧神的冷门小说《拜金女郎》来测试。
问题:在拜金女郎这部小说中,刘子默和泠夜辉到底是什么关系?
AI回答的很好,并没有直接指出是恋人关系,而是“从最初的经济利益驱动逐渐发展成为包含了情感、信任和承诺的复杂关系。”
问题:在拜金女郎这部小说中,刘子默和何以玫到底是什么关系?
AI准确地识别刘子默和何以玫不是恋人关系。
问题:刘子默的父亲叫什么名字
非常干净利落的回答:刘逸文。
问题:欧神的老婆是谁?
回答正确,因为那个时候还没离婚。
欧神在文章中提这个很少,有时候是用LP来替代。
谁知道你说的LP指的是什么?可能是廉颇呢。
这个完全是AI自己进行推断出来的,而不是搜索。
第五项:历史
问题:说说隋炀帝杨广
准确的把握了隋炀帝“曲境不折”的性格特点。
问题:说说侯景
说的大致是对的。
第六项:评估
问题:江景房为什么好?
第七项:精算
问题:一个100万的房贷,30年期,年利率5%,计算每个月的月供
其实大模型并不善于计算,就像人脑一样不善于计算一样。
很多人并不是不会精算,而是算起来比较麻烦,这个也是一个痛点。
所以,可以让大模型通过编写程序来计算。
原封不动的运行这个大模型输出的精算程序:
结果是:5368.216230121398
我们在网上随便找一个房贷计算器,同样的问题,计算的结果如下:
大模型计算的完全正确。
这个过程显然复杂了一些,完全可以让大模型在后台直接给答案。
第八项:推荐
问题:推荐几部电影
这个还真是欧神推荐的一些电影。
第九项:情感分析
问题:欧神感情失败的原因是什么?
相比AI的回答,其实AI提到的老舍在《骆驼祥子》中讲的一段话才是重点。
这段话是这样的:
爱是人中龙凤才给得起的东西,真正的情种只会出生于大富之家。
有财力有内涵修养、充满灵性的人,才给的起,愿意给,不算计和权衡利弊。
普通人活着已经耗尽全力,尔虞我诈权衡利弊为自己谋划,哪里还给的出去真正的爱,哪里有时间精力当"情种"。
三、最差的生意
经过我们上面的测评,我们可以发现“欧神”大模型的实用性是非常强的。
关键是这种方式解决了一个很大的问题。
世界上最差的生意是什么呢?
就是卖创意,而且是靠人力卖创意。
就是一个人,每次要有创意,才能卖,没有创意就不能卖。
比如说付费文章,你文章发出来,是有一些人买,但是马上盗版就出来了。
然后,后面的人就都不买了。
比如你开讲座,你不能一个课程反复讲,没有新意,别人就不来听了。
很多商业模式是这样的,是不可重复的。
这也意味着这个生意很不稳定,不可持续。
但是一个人的创意,哪里会一直有那么多呢?
人力时有穷尽,你得一直输入,才有创意,要写文章,搞直播。
一旦你停下来,收入马上就没有了。
真正能确立成为一个生意,重要的一个指标就是重复。
比如有些明星,靠一两首成名曲,吃一辈子,就是比较好的生意。
虽然对于听众来说,有些腻烦,但是从生意上看,是一个好生意。
比如说卖油,你就一直卖油,成功的事情反复做。
再比如说,麦当劳为什么没有那么多菜品?
虽然有时候也研发一些新菜品,但是模式是重复的。
就是一次研发,处处重复。
可口可乐的生意模式,未必比苹果差。
如果不想一直输出创意,那么比较可行的方式就是卖服务。
比如说,问答,就是一个比较好的服务。
因为每个问答,都是针对个人才有用的,每个人感兴趣的点不一样。
这种盗版是没用的。
但是问答这种事情,占用的人力和时间太多了,无法扩大。
这个对人的消耗实在太大了。
其实很多问答,后面的原理和模式是一样的,是可以重复的。
但是,以前,你根本做不到将问答自动化。
自从AI出现以来,把问答变成自动化成为可能。
因为AI的“智商”越来越高,哪怕半年之前,AI都是比较傻的。
但是现在完全可以投入实用了,发展速度可谓一日千里。
繁琐的,重复的工作,你可以交给AI做。
比如说,你想一个大纲,细节、引用、数据,就让AI给你填充就好了。
一个人,只要在后台把模型调试好,模型就可以应对很多人的回答了。
再多的人都可以应付。
这就是“欧神”大模型的好处。
四、结语
AI作为副驾驶copilot是已经被成功证明的模式。
我们研发的“欧神”大模型,让房圈一举进入智能时代。(内部会员已经用起来了)
虽然只是初代版本,已经有很强的实用性,而且可能开辟一个新的商业模式。
就是大规模个性化服务的商业模式。
既然可以做房圈的大模型,那么《红楼梦》、《三国演义》、《资治通鉴》等等大模型,都是可以做的,原理是一模一样的。
如果对你有启发,请点个关注或者“在看”吧。
老读者建议“星标”,没有任何互动,系统可能不会在第一时间推送给你。