乌镇智库理事长张晓东:大模型的四个基础原理

7月6日,在世界人工智能大会期间同步举办的RISC-V和生成式AI论坛上,乌镇智库理事长张晓东在以《大语言模型的原理与发展应用》为主题的演讲中,谈到了大模型的4大基础原理。

本次论坛以“智”由“芯”生为主题,由上海开放处理器产业创新中心、芯原微电子(上海)股份有限公司主办,中国RISC-V产业联盟协办。

张晓东指出,三条牛顿定律和万有引力定律就够成了我们理解世界的基础,对于大语言模型基础,同样有这样的原理。以图灵计算机为例,张晓东首先表示大语言的第一个原理是:“目前已知的所有计算装置,都等同于图灵计算机”,即丘奇-图灵论题是计算机科学的基石。这也意味着,所有“智能”的基石都是图灵计算机。

目前,关于人工智能再次爆火,张晓东认为,主要来自于语言层面的突破,如果语言如果不完全等同于思维,也等同于90%的思维。

第二个原理,张晓东认为是,“学习就是图灵机求逆”。图灵机是计算的,学习就是图灵机的“逆”,如果给一堆输出,如果能够猜得出是什么样的图灵机,能够产生数据,这就叫“学习”。另外,学习就是Solomonoff归纳,所有的学习问题就是图灵机求逆,而图灵机求逆就是next token prediction。

在解释BERT和GPT的区别时,张晓东指出,BERT是双向任务,而GPT是next token prediction,是单向更省算力的一种模式。目前,所有大模型都是GPT路线,而自然语言处理的进步在过去七十年中发生了五次范式变迁,张晓东认为,开源对于自然语言处理的进步至关重要。

第三个原理,张晓东认为是深度学习的充分性依据:Kolmogorov-Arnold叠加。数学根据是 Kolmogorov 1956年证明的Kolmogorov–Arnold 表示定理 , 也 称 叠加定理或映射定理。希尔伯特第 13问题提及大模型会发展到什么时候,张晓东引用一位OpenAI前员工的说法:“2027-2028年会出现超级人工智能,这需要1000万张H100。”

最后,关于第四个原理,张晓东提到了能耗与智能。从0变成1是需要能量的,如果触及Landauer极限时,摩尔定律也将走到极限,预计2040年以后就会到极限。而张晓东预计,摩尔定律还能走到2100年以后,半导体行业还可以蓬勃发展100年左右。


夕夕海 » 乌镇智库理事长张晓东:大模型的四个基础原理

发表回复