研究人员通过机器学习将单声道音频转换为2.5D声音

德克萨斯大学奥斯汀分校和 Facebook AI Research 的研究人员使用机器学习将单声道音频转换为双声道音频。该方法涉及使用视频来确定对象和场景配置，结果是“2.5D 视觉声音”提供了更强大的体验。该技术提供了一种将普通单声道音频转换为适用于 VR 耳机等应用的沉浸式产品的方法。

由于两只耳朵的结合以及它们之间的距离，人类能够感知 3D 空间中嘈杂事物的距离和位置。不同的元素可以帮助听者辨别产生噪音的物体的方向和距离，例如噪音有多大以及它首先到达哪只耳朵。

这种所谓的 3D 音频体验可以通过使用双耳设置录制音频来复制，该设置使用放置在与人耳大致相同距离的两个麦克风。生成的单个音频文件——当用耳机收听时——提供逼真的、身临其境的音频，使感知 3D 空间内的对象成为可能。

不过，大部分音频是单声道的，这意味着它是从一个位置用单个麦克风录制的。虽然足够，但单声道音频无法捕捉到使人类能够感知物体的距离和位置的效果，从而导致产品不太逼真，身临其境。

将单声道音频转换为双耳音频或多或少是不可能的，但研究人员高若涵和克里斯汀格劳曼找到了一种接近的方法——它使用深度学习并产生他们所谓的“2.5D”音频。该方法依赖于相关视频，该视频经过处理以获得可与音频结合以调整级别的视觉提示，模拟 3D 空间内产生噪声的对象的位置。

该方法有一些限制，特别是它不能解释视频中不可见的任何对象。上面的视频提供了 2.5D 音频输出的示例，但您需要一副耳机才能感知它。