摩尔线程官宣开源音频理解大模型MooER,基于国产GPU训练推理

8月23日,摩尔线程官宣已于近日重磅开源了音频理解大模型—MooER(摩耳),该开源项目已在GitHub上公布。

摩尔线程指出,MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。依托摩尔线程夸娥(KUAE)智算平台,MooER大模型仅用38小时便完成了5000小时音频数据和伪标签的训练,这一成就得益于自研的创新算法和高效计算资源的结合。MooER不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。

摩尔线程官方消息指出,在多个语音识别领域的测试集中,MooER展现出领先或至少持平的优异表现。

摩尔线程将MooER与多个开源的音频理解大模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3和SeamlessM4T-v2等。这些模型的训练规模从几万小时到上百万小时不等。

对比结果显示,摩尔线程的开源模型MooER-5K在六个中文测试集上的CER(字错误率)达到4.21%,在六个英文测试集的WER(词错误率)为17.98%,与其它开源模型相比,MooER-5K的效果更优或几乎持平。特别是在Covost2 zh2en中译英测试集上,MooER的BLEU分数达到了25.2,显著优于其他开源模型,取得了可与工业水平相媲美的效果。基于内部8万小时数据训练的MooER-80k模型,在上述中文测试集上的CER达到了3.50%,在英文测试集上的WER到达了12.66%。

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。(校对/陈炳欣)


夕夕海 » 摩尔线程官宣开源音频理解大模型MooER,基于国产GPU训练推理

发表回复