版主信息与通信 2024-09-13

“芯动”揭秘｜郑纬民：构建良好软件生态对大模型发展不可或缺

8月30日，在第八届“芯动北京”中关村IC产业论坛高峰论坛上，中国工程院院士、清华大学教授郑纬民发表主题为《自主可控的智算芯片很重要，其核心基础软件也很重要》的演讲。

在发言中，郑纬民强调了软硬件相结合、构建国产智能算力的重要性，指出优秀的系统软件能够充分释放底层硬件算力的潜力，构建良好软件生态可以有效降低大模型在不同AI芯片适配中的成本。

构建良好软件生态

顺应AI要素本地化趋势

近年来，人工智能被越来越广泛地应用于诸多重要领域，AI大模型对算力的需求也产生了爆发式的增长。在大模型的整个生命周期中，模型训练、模型微调、模型推理三个主要过程都对算力有着庞大的需要。

对此，郑纬民指出，随着AI要素全面进入本地化时代，算力国产AI算力在总量中的占比将快速提升，到2025年将有50%为国产算力，到2030年国产算力将超过90%。然而，在国产智算芯片取得快速发展的同时，国产智能算力平台仍然面临来自软件生态方面的挑战。

据介绍，深度学习需要多层软件栈的支持，其中配套的核心基础软件至少有10种，包括并行系统、编程框架、通信库、AI编译器、算子库、编程语言、容错系统、调度器，内存管理、存储系统。只有将这些软件系统做好，并与集成电路适配起来，才能充分发挥AI芯片的性能，也才会使国产的智算芯片与核心基础软件逐渐获得用户的青睐。

当前，在大模型的训练推理过程中，国产系统仍然不具备竞争优势，最主要的原因就是来自软件生态的挑战。国产算力易得，软件生态欠缺。

软硬件适配

加速国产大模型训练推理进程

在实践中，郑纬民院士也身体力行，带领课题组对国产智算系统核心基础软件进行了大量开发工作。据介绍，郑院士课题组目前已经开发的软件系统，涉及10种核心基础软件中的7种，如PowerFusion为一款面向国产AI芯片智能编译器；FastMoE为MOE大模型并行加速系统；FastDecode为高吞吐大模型推理系统等。人们将上述软件系统综合命名为“八卦炉”基础软件系统。