第57章 孙博的能力
推荐阅读:横推武道:从预知机缘开始 长生:我的修仙天赋能刷新 神话:刚成斯文败类,杨婵上门 极光兵魄 长生:皇帝祂疯了 LOL:我真没想决裂啊! 这什么奇葩按钮? 开局牛家村,我和嫂嫂相依为命 港综:我无敌你随意 繁花:阿宝你给我站住,还我钱
大规模购入显卡这件事儿,微软和OpenAI丝毫没有对外保密,甚至搞的格外高调。这边刚一做完决定,立即就搞得满世界都尽人皆知了。
“这……”纪弘看到相关消息,简直有些哭笑不得:预测模型这么准的吗?
想想很离谱,但仔细一分析,确实也在情理之中——因为微软压根儿就没有第二条路可以走。
耳语系统虽然没有表现出超强的攻击力,卷耳智能科技甚至都没有为它开过一个发布会,有点儿并不重视的样子,但它的战斗力就在那,任谁都没法忽视。
哪怕根本就没有正式在美欧地区销售,就已经开始慢慢的侵袭微软的Windows市占率了。
如果下一个版本还不能扭转过局势来,那劣势瞬间就会转化为败势!
生态是护城河不假,但被护城河淹死在城内的可是有先例——当年诺基亚塞班系统市占率高吧?现在再看看,哪里还能看到它的影子!
护城河是对同级产品而言的,过于落后,掉到河里的只会是自己。
纪弘也是想到了这儿,随后又看了看那个预测类AI模型:如果变量过多,时间很长,对它来说确实难度很大。
但如果变量很少,就像这次,预测GPU行业,单单就这一个行业,预测某些公司的短期动向,看起来还是很靠谱的。
“这东西包装一下也是一个非常强大的产品!”纪弘这么想着:“先拿去给陈继业做企业分析试试。”
“微软这边……”决心下的那么大,所有人都看出微软要做什么了,纪弘当然也不例外,这个时候,他在思考这样一个问题:
“现在他们的大模型,Transformer这类的,靠无限制的堆积算力,就能无限的提高模型能力吗?”
纪弘对此还真没有研究——先前在创界,主要利用别家平台进行接口对接开发,后来自己创业,上来就是类思考模型,对T模型属于降维打击,并不存在这样的问题。
他对此没有什么研究,但有一个人一直在关注着这方面——这个人就是孙博。
“靠无限制的堆积算力获得高性能大模型,短期内是可行的。”
孙博也是看到了微软的行动,在CSDNBlog跟一群人正在探讨相关的话题:
“长期的话,倒不是有上限,真要有魄力不计成本无限制的去堆积算力,理论上是真的能够获得无限制的性能提升的。
“但也仅仅只是理论上,这里边有一个巨大的问题,根据我的研究,它的增长不是线性的。
“我大约计算过,实际的增长曲线就不说了,很复杂,但大约可以简化为这个函数:y=c·log(e)·(X+1)。
“这里边y指的是性能,X你们就姑且理解为算力堆积的基本单位,大约趋势如下图。”
就算是对数学再不懂的人,看到这个公式也该看出来了,因为这个函数的曲线到最后,几乎就是一条平平的横线。
也就是说,当显卡堆积达到一定规模之后,就算再堆积硬件,性能虽然也会增加,但增加的也会十分有限,到最后甚至肉眼都不可见了。
这么说着,孙博还举例道:“以现在的GPT4为例,如果想要一个2倍GPT4参数的大模型,对算力的需求大约会是多少呢?
“我计算过,大约需要十几倍。而且公式计算的只是理论效果,而更大规模的集群,片间互联的损失肯定也会更大,实际效果只会更差。”
孙博很是热情,只要不涉及他自己工作的机密和核心,只要他在的时候,那几乎是有问必答的。
纪弘也正好翻看到这儿,他没有过多的惊讶,片间互联损失这一块儿本身就不好解决,要不然超大规模智算中心也不至于这么稀有了——河州大学搞的那个还是纯国产第一例。
“按你这么说,微软这孤注一掷的效果,不一定会好啊!”有人这么回了一句。
“效果不好是一定的,花费两倍的价格,可能能得到1.5倍的性能,最多也就如此了,想要赶上耳语的能力,我觉得不大行。
“其实OpenAI自己肯定也清楚,GPT4乃至后续没有发布的4.5版本,之所以没这么堆规模,就是在卡能效比的两个节点。
“再堆规模下去,性价比会越来越低不高。但现在不是被耳语逼的没办法了吗?”
孙博本就是研究前沿理论的,现有模型的理论上限他清楚的很,哪个算力节点卡一下性价比最高他大约也都清楚。
到了一定程度,盲目的加规模肯定得不偿失。除非迫不得已,一般不会这么干的。
纪弘一边看着孙博的回复,一边分析这个人,越分析越是感兴趣了——这是一个有真材实料的理论家。
“如果能挖来卷耳科技,将会是一个巨大的臂助。”
……
纪弘在念叨孙博的时候,孙博也在念叨他——起因就是纪弘发的那个私信。
“最优化理论的一个分支,目的是为了解决大模型之间交流的问题,这人该不会是卷耳智能科技的创始人纪弘吧?”
孙博看了好一会儿,想到了纪弘在河州大学采访时说的一个两个三个多个模型串联得出更精准更切合先说你的结果,那些话。
“这是实现AGI通用人工智能的一个思路吗?”
孙博看的有些迷,是因为很多关键点纪弘都给他略去了,但大致的框架还在,他知道这东西在解决什么问题。
事实上,他本人也在研究这个。
“但是,大模型之间的交流是以数据和信息为载体的,通常来说,交流只是扩大了信息量。”
比如可以利用一个大模型的数据去快速的训练另一个大模型——这一点大家都知道,千寻的文心一言用过GPT的数据。
后来,谷歌的大模型也被爆出过用了文心一言的训练数据,大家利用来利用去的,这都不是些稀罕事儿。
“但这还是要走训练过程的啊,只是少了数据清洗和标定过程以及相关的人力成本而已,两个模型的能力并不能直接相加,能利用的只是数据而已!”
“除非……”一个大胆的想法在孙博脑海里渐渐的浮现出来:“除非,有办法让智慧化的能力直接交流甚至融合。这……”
饶是只是一个想法,孙博也被自己吓了一跳:如果两个模型的智慧能力本身能够融合和共同利用,但这可能吗?相当于人之间的交流了啊这!
“类思考……”
刚还想着绝不可能呢,但类思考三个字一出来,孙博脑袋直接“嗡”的一声,这已经有先例了:“这人绝对是纪弘没跑,他这是对我有兴趣?”
求追读,尤其是明天后天的章节,关系到这本书能否冲出分类,能否PK上三江。
所以,恳请大家这两天一定要追读最新章节,万分感谢!
(本章完)
(https://www.kenwen.cc/book/469946/18275408.html)
1秒记住啃文书库:www.kenwen.cc。手机版阅读网址:m.kenwen.cc