搭载人工智能的可听戴设备正日益受到青睐
消费者对高质量音频设备的需求持续推动着创新。可听戴设备(耳塞、无线耳机和游戏耳机)满足了消费者对移动性的期待,抓住了这个市场机会,既促进了耳机市场的发展,也推动了助听器和非处方听力增强产品的技术进步。
在经历了2023年的低迷之后,可听戴设备的销量再次起飞,到2024年第二季度将达到1.06亿件,同比增长超过10%。真无线立体声(TWS)和无线耳机被认为是这一增长的主要推动力。自然,产品设计师们渴望增加人工智能(AI)功能,以此使他们的可听戴产品实现差异化。我们已经能看到这类升级,主要通过智能提升音频体验的质量,而不是依赖更复杂的人工智能功能。
AI提升音频质量
在可听戴设备中,音频质量是一个重要的差异化特征,特别是在嘈杂环境中,设备的组件质量往往只能在一定程度上抵挡干扰。这时,AI和软件就派上用场了。例如,虽然所有可听戴设备都具备一定的降噪功能,但大多只能抑制稳定持续的背景噪音。更先进的自适应降噪解决方案利用AI分析环境噪声,并实时调整降噪参数。
同样,在使用耳机或耳塞通话时,将语音与背景噪声隔离开来也至关重要。虽然设备的移动性让我们可以随时随地通话,但街道噪音和人群的嘈杂声往往会淹没我们想要听到的对话。与其他音频相比,语音是一种可分辨的信号,但需要依靠AI来提取这一信号并过滤掉背景噪声。这项能力在助听器中尤为重要,因为听力受损者在稍微的背景噪音中,也可能很快就无法跟上正在进行的对话。
个性化是AI应用的另一个重要领域,通过多种音频处理技术,能够根据用户的偏好和听力受损情况进行调整。个性化在特定应用中同样显得重要,例如在游戏中,可以增强第一人称射击游戏的脚步声,或在多玩家游戏中增强聊天对话。
值得一提的是,Android和iOS均在筹备,目标是在发布认证设备时同步支持蓝牙6技术,从而充分利用所有这些领域的机遇。
打造有竞争力的产品
今年我们从TWS耳机中学到的一个重要经验是,可听戴设备需求对价格非常敏感,与此同时,消费者既希望整体设备体积小巧,又希望有超强的续航能力。您需要在众多听觉设备中脱颖而出(或至少保持竞争力)。这该如何实现呢?在通用微控制器(MCU)上运行这些AI选项是行不通的,因为这样的平台太慢且耗电。
您至少需要一个数字信号处理器(DSP)来实现高质量的音频处理并执行端到端的应用。此外,流媒体音频也应兼容最新的Bluetooth®蓝牙标准和编解码器,以确保最佳音质。更理想的是,使用能够同时处理DSP和AI功能的处理器。这样可以高效融合来自多个传感器的输入,处理处理TWS高质量音乐流、语音和环境噪音。沉浸式空间音频还需要将基于惯性测量单元(IMU)的头部跟踪与音频结合,从而准确定位声音源,这也是AI方法的发展趋势。所有这些功能都必须适应耳机的小巧设计,并由小型电池供电。
您的产品计划是否准备好将AI技术应用到可听戴设备中?
要实现这一目标,关键在于将所有AI功能压缩到一个非常小、超低功耗的空间中,同时保持低延迟,以提供高质量的音频体验。这就需要一个嵌入式的NPU(神经网络处理单元)核心,能够处理独立DSP和NPU的所有处理元素,包括代码执行和内存管理。这个核心应该是完全可编程的,可用于特征提取、DSP功能和ML(机器学习)处理,同时还要控制其他代码的运行。同时,它必须在各个应用中严格管理功耗,尤其是限制系统设备与DRAM之间的数据流动,以降低能耗。在始终开启模式下,它必须能够将功耗降至极低水平。
自然,NPU应支持当今先进的机器学习数据类型和运算符,包括卷积神经网络(CNN)、深度神经网络(DNN)和本地变换模型,并能与TensorFlow Light for Microcontrollers(TFLM)和microTVM等领先的开源推理框架完全互操作。为了最大限度地缩短产品开发时间,开发人员应寻求一个强大的模型库,这个库里包含预先训练好的和经过优化的机器学习模型,涵盖可听戴设备应用中重要的语音和传感用例,此外,还需要一系列优化过的运行时库和现成的软件。