3D音频技术分析

(整期优先)网络出版时间:2023-09-05
/ 2

3D音频技术分析

刘贺   毛峰等同第一作者

国家知识产权局专利局专利审查协作天津中心   天津   300304

摘要:3D音效根据人耳对声音信号的感知特点,使用信号处理方法对声源到两耳之间的传递函数进行模拟,以重建复杂三维虚拟空间声场,3D音频技术的实现主要依靠两种技术:HRTF( Head Related Transfer Function)头部相关传输函数的技术;WFS( Wave Field synthesis)波场合成技术。HRTF头部相关传输函数在3D音频领域已经逐渐发展完善,HRTF数据库对听音者音频优化提供了更好地保证;波场合成WFS的3D音频技术目前的应用还处于探索阶段,该技术需要大量的扬声器单元,多个扬声器的输入输出对数据运算同样是一个巨大的工程。

关键词:3D,音频,HRTF头部相关传输函数,WFS 波场合成

第一章 3D音频技术

人耳的基本声音定位原理是IID和ITD。IID(Interaural Intensity Difference:两耳声强差),它的意思是说离音源较近耳朵收到的声音强度要比另一侧高,感觉声音会大一些。ITD(Interaural Time Difference:两耳时差),它的意思是说人站的方位不同,声音达到两耳的时间也有差别,人们会感觉到音源早达到耳朵的那边。人耳听到的声波,经过阻碍物的反射,外耳轮廓的过滤,声波能量减弱,消失,延迟,接收声音会与音源发生有很大变化,依靠这些变化,可以确定周围环境。

3D音效需要重建听觉的三维空间真实自然的特点,需要支持以上的定位效果,IID、ITD、外耳、反射,分析他们在不同角度声音的变化,然后通过计算机模拟来建立虚拟的声音系统。三维音频(3D audio),也称为虚拟声(virtual acoustics)、双耳音频(binaural audio ),空间声(spatialized sound)等,它根据人耳对声音信号的感知特点,使用信号处理方法对声源到两耳之间的传递函数进行模拟,以重建复杂三维虚拟空间声场。

1.1  3D音频技术原理

3D音效的两个重要的因素:定位与交互。定位让人们能够准确地判断声音的位置,可以通过录制声音再解码来完成。而实时的定位就是交互,根据人们的听觉来决定声音的位置。3D音频技术的实现主要依靠两种技术:HRTF( Head Related Transfer Function)头部相关传输函数的技术;WFS( Wave Field synthesis)波场合成技术。

1.1.1   HRTF头部相关传输函数的技术

声源定位信息,都可以用一个传递函数来表示,称为头相关传递函数(HRTF, head-related transfer function)。由于HRTF包含了有关声源位置的大部分信息,因此一组准确的HRTF函数对精确重现三维声场有重要意义。HRTF有2个特点,即随着声源位置的不同,HRTF也不相同,并且每个人的HRTF都不尽相同。如果让单路信号通过一组HRTF,则会产生人的两耳定位所需的必要信息,再通过耳机播放后,听者会感觉声音是从HRTF所描述的空间位置发出的。这个处理过程称为双耳声合成,所产生的信号称为双耳声。三维音频的实现可以分为两步进行:双耳声合成(synthesis)和双耳声重拾(reproduction)。双耳声合成就是使用HRTF产生双耳声信号的过程。双耳声重拾是指将合成的双耳声信号传递到人耳的过程,该过程必须保证两耳只能接收到各自声道的信号。

1.1.2  WFS 波场合成技术

 WFS技术是基于声波动理论并用扬声器矩阵来产生声波。矩阵中的每一个扬声器都被反馈给一个和其位置相应的经Rayleigh重建积分算得的信号。对于声波合成,这些三维积分可近似为有限个数摆放在一个平面上的扬声器阵列的辐射在空间某一点上的叠加。由于不受重放房间的影响,在这个平面内由每个扬声器产生的声波的叠加在交叠频率以下重建了准确的原声波,而交叠频率决定于各个扬声器间的距离。用声波技术得到的声场重建在整个聆听空间里保持了原声场的时域和空间性质。开发出WFS-3DAudio声音重放的概念,同时也研发出配套的音箱壳体和电子控制部件,这样高声压级、高清晰度的重放目标就能够实现了。

第二章 技术路线发展的路线

3D音频技术包含的内容从不同的角度存在多个技术分支,根据对耳机主动3D音频技术文献的阅读,梳理出对3D音频技术从实现技术进行技术发展路线的解读。

1、HRTF头部相关传输函数的技术路线

早期HRTF的应用大多关于与HFTR相关的虚拟声重发,通过滤波器近似估计HRTF的3D声定制系统,在发展过程中根据双耳定位的原理,结合数据库计算,完成声源定位,并不断提高准确率。国外公司主要集中在索尼公司,杜比实验室,伯斯公司,高通公司,苹果公司;国内公司在声学领域的技术并不突出,例如华为,腾讯,歌尔科技,还有高校和科研院所,例如中国科学院声学研究所,西北工业大学,华南理工大学。杜比实验室提出了一种通过系统渲染音频数据,并在渲染音频数据中通过优化函数来确定环境中的一组扬声器的相对激活,扬声器上回放时播放的所述音频信号的感知空间位置模型;音频信号的所述预期感知空间位置与所述一组扬声器的每一扬声器的位置的接近度的量度。在数据库和大量算法的计算下,产生逼真的双耳相应。

中国实时音视频行业市场规模在2021年已经达到16亿,互联网实时音视频市场规模高速增长下,对虚拟音频的3D效果提出了更多的技术上的挑战。腾讯科技有限公司利用HRTF音效定位算法,通过在元数据中配置与多个接收方相对应的多个接收方字段,可以根据多个接收方字段分别为多个接收方进行个性化地音频渲染,使得多个接收方能够从相同的音频数据中获得不同的听觉效果,满足多样化的音频渲染场景需求。

2、WFS 波场合成技术路线

WFS技术能够合成较大范围的三维声场,从而使听者在较大范围内都具有三维空间感。国外公司主要集中在杜比实验室,大陆汽车,伯斯公司,大陆汽车有限公司,费迪曼逊多媒体科技;国内公司主要集中在,例如华为,腾讯,歌尔科技,还有科研院所,中国科学院声学研究所,西北工业大学,华南理工大学。

三维声场合成已经成为了一个研究热点并开始逐步走向应用。到目前为止,尽管已经提出了很多三维声场合成的算法,然而这些技术在合成逼真三维声场方面仍然具有一定的局限性。大多数三维声场合成技术都着重声源方向信息的合成,对如何合成三维声场中的距离感关注较少。然而,在三维声场的感知中,声源的距离感和方向感具有同样重要的地位;距离感的生成是三维声场合成中必不可少的一部分。中国科学院声学研究所三维声场合成中的距离感合成方法,以人对真实环境中声源位置的感知机理和惠更斯原理为基础,在现有的波场合成技术的基础上,研究并实现合成三维声场中声源的距离感,从而丰富波场合成理论、增强合成声场的真实感。

费迪曼逊多媒体科技提出基于WFS波场合成技术的可变声学家庭影院音响系统,系统中设置若干阵列分布的拾音器,实时地拾取空间中的声源信号,对各拾音器所拾取的信号分别与虚拟空间的3D脉冲响应实时卷积处理,得到各拾音器位置所触发的相应的虚拟房间3D反射声信号和虚拟房间3D反射声方位元数据,虚拟房间3D反射声信号通过输入路由和声像矩阵传输至波场合成处理器,虚拟房间3D反射声方位元数据通过网络协议传输至波场合成处理器,波场合成处理器通过平面波进行还原来自各个方向的反射声来叠加空间印象。

第三章 结语:

本文从3D音频技术的原理,以及现有技术的发展路线进行分析,HRTF头部相关传输函数在3D音频领域已经逐渐发展完善,HRTF数据库对听音者音频优化提供了更好地保证;波场合成WFS的3D音频技术目前的应用还处于探索阶段,该技术需要大量的扬声器单元,多个扬声器的输入输出对数据运算同样是一个巨大的工程。