版主信息与通信 2024-05-16

ISEDA首发！大语言模型生成的代码到底好不好使

在大模型席卷一切、赋能百业的浪潮里，“码农”也没能独善其身。各种代码自动生成的大模型，似乎描绘了一个人人都能像资深工程师一样写代码的美好未来。

但在这个理想成为现实之前，有一个不能回避的问题—这些自动生成的代码真的有效吗？大模型也会犯错，我们肯定不希望把看似正确的错误结果交给用户，所以需要一个能精确验证模型生成答案的考官。

近期，芯华章提出了一种对大模型生成代码形式化评估的方法，称为FormalEval。它能自动化检査生成代码的质量，无需手动编写测试用例。经过测试，FormalEval不仅能够识别出现有 RTL 基准数据集中潜藏的约50% 的评估错误，还能通过测试用例增强的方式来修复这些错误。

本文共计2680字，预计阅读时间7分钟，希望能够帮助您更好了解：

如何快速验证大模型自动生成的代码？

新的方式和传统方法有什么不一样？

本文内容根据芯华章研究院入选ISEDA2024论文《FormalEval: a Formal Evaluation Tool for Code Generated by Large Language Models》梳理。感谢ISEDA评选委员会对芯华章相关研究的认可。

ISEDA2024技术分享现场

现有验证方法

要么费时费力，要么不够准确

在开始讨论前，有必要先明确这个验证系统需要具备的两个核心属性：

第一，验证结果必须是足够准确且充分的；

第二，效率也非常重要。

基于这两点，现有方法又是怎么评价模型生成结果的呢？有三种主流方式：

/ 01 /人类专家评价

给定问题, 大模型生成代码, 人类工程师来判断结果是否正确;

/ 02 /基于近似指标的自动化评价

给定标准答案, 有基于文本间相似度的(Rouge1), 也有基于文本相似度结合代码间结构(抽象语法树、数据依赖图)相似度的方法(Code-Bleu2);

/ 03 /基于验证平台和测试用例的自动化评价

给定验证平台, 通过对比模型在各种不同测试用例下的输出是否等于期望结果来评价模型的方法;

显然, 第一种方法的评价精度受限于专家自身的能力, 而成本也受限于专家的时间资源。

第二种方法, 虽然自动化程度高, 依赖的资源不多(只需要一份标准答案), 但因为借助的是近似指标的关系, 无法保证在指标上表现理想的模型，在功能上也能真正符合预期。从下例可以看出，明明模型生成的代码给出的答案和正例是完全相反的，但是code-bleu得分却接近1(满分)，这显然是不合理的。

而第三种方法虽然准确度最高, 且在满足资源(平台、用例、仿真器、标准答案)的情况下能实现自动化评价, 但是这些前置资源的构造本身就需要花费大量人力成本(编写好的测试用例通常和编写程序一样困难), 所以该方法也无法实现真正的大规模自动化验证。我们统计了四个广泛使用的评估数据集，发现每个问题的平均测试用例量都非常少。这会导致测试不准确的现象。

具体来说，当前最广泛被使用的是OpenAI在Codex论文中开源的HumanEval(上表第三行)。OpenAI的(HumanEval3)验证采用了第三种方法, 但仅提供了164个问题用作模型校验, 与之对应的是其提供了成百上千万行的代码资料供模型学习。