LLM路线一定是正确的吗?scaling law终有尽头

最近看了硅谷101专访meta前FAIR研究总监田渊栋的视频,这访谈让我能够以一线研究专家的视角,来看当前AI或者LLM(大语言模型)的发展。访谈内容专业、且不带任何目的性和偏向性,让我对AI有新的思考。
看完之后,我总结了几点感悟:
- 未来做基础研究得越来越少,做应用越来越多。
- LLM路线不一定正确,scaling law终有尽头。
- 技术与商业平衡,学术与工程鸿沟。
- 选择喜欢和未来有市场价值的工作
1 未来做基础研究会变少,做应用会变多。
随着模型工程化技术越来越成熟,未来从事基础模型的研究工作的人会越来越少。这个算是技术领域普遍规律:从事底层基础技术(比如Linux内核开发,云原生基础设施开发、基础框架的开发)的人通常少数,,而绝大部分人从事将技术与商业整合落地。
2 LLM路线不一定正确,scaling law终有尽头。
当前LLM的参数规模已达数十亿级别,而人类一生所能接触到的有效信息(token)上限约为100亿。然而,现有模型的训练数据量却已高达10万亿乃至30万亿级别。这些高质量数据从何而来?如此庞大的训练数据能否真正赋予模型与人类匹敌的能力,这仍然是一个巨大的疑问。
从商业的角度来看,大规模的数据和参数,意味着巨大的算力需求,而且算力和能源总归有上限。scaling law以指数级的投入,产生线性的增长,其投入产出比非常低效。以高昂的成本来产出模型,模型产生价值能否大于投入的成本,这也是值得怀疑?
更重要的是,当前模型普遍缺乏人类所特有的“洞察力”。它们在面对问题时,难以提出独特的见解或进行创新性思考。
引用田渊栋的原话:
这种高层的human insights(人类洞察力)、human knowledge(人类知识)和对这个问题的独到见解,这些东西现在的模型是缺的。
3 技术与商业平衡,学术与工程鸿沟。
对于像Meta这样的公司,任何技术投入的最终目的都是为了产生商业价值。Meta在AI领域上的落后,归因于在技术不成熟的时候,过早的追求商业化,还有外行人指挥内行人。技术从学术研究到工程落地,周期往往漫长,心急吃不了热豆腐。
4 选择喜欢和未来有市场价值的工作
我们需要清晰地思考自己真正热爱什么、擅长什么,以及哪些事情能够创造价值。不要一味追逐热点行业,今天炙手可热,明天可能昨日黄花,比如移动互联网爆发初期时的iOS开发。
这是我最近最大的感悟:作为技术人,如果想靠技术来吃饭,那么技术一定必须能够产生商业价值。当然也可以出于兴趣和爱好研究某些技术,无论它是否能产生市场价值。毕竟,工作的最终目标还是为了更好的生活。



