《声学手册(第七版)》第四章

章节4

声音的感知

究耳朵的物理结构是生理学的研究领域。而对人类对声音的感知的研究属于心理学和心理声学。心理声学是一门综合科学,涵盖了耳朵的物理结构、声音路径及其功能、人类对声音的感知以及它们之间的相互关系。在许多方面,心理声学是整个音频工程领域的人类基础。它在感知编解码器(如MP3和AAC)的设计中的作用是显而易见的,但心理声学在建筑声学中也是至关重要的,例如告诉我们一个房间的声场如何被听者解读。每个良好的房间设计必须仔细考虑听众的感知敏锐度。

刺激波击打鼓膜会引起机械运动,产生电流放电信号发送到大脑。大脑识别和解释这些放电信号,产生我们所称之为声音的感觉。这个过程远非简单。即使经过几十年的积极研究,我们对人类听觉的了解仍然不完全。

听交响乐团时,首先集中注意力在小提琴上,然后是大提琴和低音提琴。现在将注意力转移到单簧管上,然后是双簧管、低音管和长笛。耳脑分离复杂声波的能力只是人类听觉系统令人惊叹的能力之一。此外,敏锐的观察者可以聆听小提琴的声音,并从基频中分辨出各种泛音。迄今为止,人类耳朵是所有音频工程中最复杂和精密的装置。

耳朵的敏感性

我们听觉的敏感性可以通过一次思想实验来强调。打开一扇大门,里面是一个无反射室,墙壁异常厚重,所有的墙壁、天花板和地板都铺满了指向内部的3英尺厚的玻璃纤维楔形块,除了你踩在一个开放的钢格栅上。

你坐在椅子上。这个实验需要时间,你靠在椅子上,耐心等待。这里非常怪异。我们通常沉浸其中并且几乎没有意识到的声音和生活活动的喧嚣,在这里却因其缺席而显得格外明显。

沉默随着时间的流逝压在你身上,宛如坟墓中的寂静。你发现了新的声音,这些声音来自你的身体内部。你心脏的跳动和血液在血管中流动变得可听。如果你的听觉敏锐,你的耐心将会得到回报,你会在心脏的跳动和血液流动之间听到嘶嘶声,那是空气颗粒撞击你的鼓膜的声音。

人类的耳朵无法探测比空气颗粒随机运动对鼓膜的冲击更轻微的声音。这就是听觉阈值。之所以没有必要使耳朵更敏感,是因为任何更低水平的声音都会被空气颗粒的噪音淹没。这意味着我们听觉的终极灵敏度正好匹配了在空气介质中可能存在的最微弱的声音。

走出无反射室后,想象自己被投入到最响亮的声学环境中。在这个极端情况下,我们的耳朵可以对炮声、火箭发射的噪音或全功率下的喷气飞机的轰鸣作出反应。在高噪声水平下,耳朵的生理特征部分帮助保护敏感的听觉机制免受损伤。在感觉的阈值(感觉到刺痛感觉的地方),长时间暴露或突然或强烈的噪音很容易引起听觉反应的暂时性转变。在这些高噪声水平下,一些永久性听力损伤可能是不可避免的。

耳朵解剖

人类听觉系统的三个主要部分是外耳、中耳和内耳,如图4-1所示。外耳由耳廓和听觉管组成。听觉管的末端是鼓膜。中耳是一个充满空气的腔室,由三个被称为听小骨的微小骨骼组成,包括锤骨、砧骨和镫骨。这三块骨头有时也被分别称为锤子、铁砧和马镫,因为它们的形状如此命名。镫骨是人体中最小的骨头,大小约为一粒米饭。锤骨与鼓膜相连,镫骨与内耳的椭圆窗相连。这三个骨骼共同形成了一个机械的杠杆连接,将受气驱动的鼓膜与内耳的充满液体的耳蜗相连接。内耳以听神经为终点,该神经将电信号发送到大脑。

Images

图4-1 人耳从外耳接收声音,通过听觉管传递。中耳将空气中的鼓膜与内耳的耳蜗相连接。内耳的耳蜗将声能转化为传输到大脑的电信号。

外耳——耳廓

耳朵的外部部分,即耳廓,在其他功能之外,还起着聚集声音并提供放大的声音接收设备的作用。对于语音频率(2,000至4,000赫兹),耳廓可以使鼓膜处的声压增加约5分贝。将手掌贴在耳廓后方可以增加耳廓的有效大小,从而根据频率使声音的响度变化。一些动物能够移动他们的外耳朝向声源,以帮助放大声音;人类缺乏这种能力,但常常(通常是无意识地)稍微转动头部来更好地听到声音并确定其来源。

耳廓还在所有进入耳朵的声音上执行一个关键的功能,即在其中印记出方向信息。这意味着源方向的信息被叠加在声音内容本身上,以使作用在鼓膜上的声压能够让大脑解读声音的内容和来自何处的方向。耳廓能够区分来自前方与来自后方的声音,并能够区分听众周围的声音。两只耳朵共同工作以提供额外的空间线索。至少在自由场中,闭上眼睛并准确地指向声源是很容易的。

方向线索的演示

一个简单的心理声学示范可以展示出声音在耳朵上的变化如何产生主观的方向印象。在一只耳朵上戴上耳机,听一个带有可调谐陷波滤波器的八度宽带随机噪声。将滤波器调节至在7.2千赫兹处衰减,会使噪声似乎来自观察者的水平位置。将陷波滤波器调节至8千赫兹时,声音似乎来自上方。将陷波滤波器调节至6.3千赫兹时,声音似乎来自下方。这个实验表明人类听觉系统可以从鼓膜上的声音频谱的形状中提取方向信息。

外耳——听觉管

听觉管,通常称为耳道,也增加了通过它传播的声音的响度。在图4-2中,耳道的平均直径约为0.3英寸(0.7厘米),长度约为0.9英寸(2.3厘米),我们将其理想化为一条直线,并在整个长度上给予了统一的直径。从声学上来说,这是一个合理的近似;耳道就像一个管状导管,一端开放,内端被鼓膜封闭。

Images

图4-2 听觉管被鼓膜封闭的一端,充当了一个四分之一波长的管道。共振效应为中频提供声学放大。

这个耳道与风琴管的声学相似性是显而易见的。与一端封闭的管道类似,耳道的共振效应使鼓膜处的声压相对于耳道开口增加。此外,这种压力增加随频率而变化。封闭一端的耳道将基本上支持四分之一波长的共振频率;这可以用来模拟耳道的响应。在实际应用中,耳道的共振频率因个体而异,取决于其长度以及耳道的体积和曲率等其他因素。此外,耳道壁并非实心,鼓膜是凹面的。总的来说,成年人的共振频率大致为3,000赫兹。

此外,击中头部前面的平面波将被衍射;这进一步增加了鼓膜处的声压,并扩大了整体声压的增益。这些效应结合在一起,使耳朵对中频范围(大约2,000至4,000赫兹)的声音最为敏感。毫不奇怪,这也是语音占据的频率范围。不幸的是,声压的这种增加也使得耳朵在这些重要的中频范围内相对更容易受到听力损失的影响。

中耳

将来自空气这样稀薄介质的声能传递到水这样的密集介质中存在一些挑战。如果没有一些传递机制,空气中产生的声音会像光线在镜子上一样在水面上反射。为了实现高效能的传递,两个介质的阻抗必须匹配;在这种情况下,阻抗比约为4,000:1。如果用一个输出阻抗为4,000Ω的放大器驱动1Ω的扬声器音圈,传输的功率将非常不理想。类似地,耳朵必须提供一种让空气中的能量进入内耳液体内部的方式。

目标是尽可能高效地将鼓膜震动所代表的能量传递到内耳的液体中。这个双重解决方案在图4-3中有所提示。三块骨头(锤骨、砧骨和镫骨,如图4-3A所示)构成了耳膜和与内耳液体紧密接触的卵圆窗之间的机械连接。这三块骨头中的第一块骨头,锤骨,与鼓膜相连。第三块骨头,镫骨,实际上是卵圆窗的一部分。这种连接具有杠杆作用,杠杆比从1.3:1到3.1:1不等。也就是说,鼓膜的运动在内耳的卵圆窗处减少了这么多。

Images

图4-3 中耳提供阻抗匹配。 (A) 中耳的锤骨、砧骨和镫骨(锤子、砧板和马镫)传递鼓膜的机械振动到耳蜗的卵圆窗。 (B) 中耳阻抗匹配功能的机械类比。鼓膜和卵圆窗之间的面积差异,结合降阶的机械连接,使空气驱动的鼓膜运动与液体加载的卵圆窗运动相匹配。

这只是机械阻抗匹配装置的一部分。鼓膜的面积约为0.125平方英寸(80平方毫米),而卵圆窗的面积仅为0.0045平方英寸(3平方毫米)。因此,作用在鼓膜上的力量会减小约27倍(80/3)。

图4-3B中,中耳的作用被比作两个活塞,其面积比为27:1,由一个具有1.3:1到3.1:1杠杆臂的铰接连杆连接,使得总的机械力增加了35到80倍。空气和水之间的声阻抗比约为4,000:1,使两个介质匹配所需的压力比为4,000的平方根,约为63.2。这个范围与图4-3B中所示的中耳机械原理得到的35到80倍相符。有趣的是,婴儿的耳骨已经完全形成,并且随着时间的推移不会显著增大;任何大小的变化只会降低能量传递的效率。

通过中耳的机械原理解决了将空气中的声音与内耳液体中的声音匹配的问题。阻抗匹配加上耳道的共振非常高效;与分子尺度相当的膜片运动给出了阈值感知。

耳朵的示意图如图4-4所示。位于听觉管内部末端的锥形鼓膜构成了充满空气的中耳的一侧。中耳通过咽鼓管与鼻腔后部的上咽连接。鼓膜充当着一个“声学悬挂”系统,与中耳中困在其中的空气的可压缩性相抗衡。咽鼓管适当地狭窄和收缩,以不破坏这种可压缩性。圆窗将充满空气的中耳与不可压缩的内耳液体隔开。

Images

FIGURE 4-4 人耳的理想化草图,显示了未卷曲的充满液体的耳蜗。进入耳道的声音使鼓膜振动。这种振动通过中耳的机械连接传递到耳蜗。声音通过在基底膜上产生的驻波进行分析。

咽鼓管还通过将中耳的静态气压与外界大气压平衡来履行第二个功能,以确保鼓膜和内耳的纤薄膜能够正常工作。每当我们吞咽时,咽鼓管会打开,使中耳压力得到平衡。外部气压的变化(例如没有增压舱的飞机经历快速的高度变化)可能导致暂时的听力丧失或疼痛,直到通过吞咽使中耳压力得以平衡。最后,如果中耳感染,咽鼓管还具有第三个紧急排液功能。

内耳

迄今为止,我们已经比较清楚地了解了中耳的声学放大器和机械阻抗匹配特性。然而,内耳中包含的耳蜗的复杂运作并不那么明确。

耳蜗是声音分析器官。它与平衡器官的三个相互垂直的半规管密切相连(参见图4-1)。这两个器官共享相同的液体,但它们的功能是独立的。耳蜗的大小约为一颗豌豆,并被坚硬的骨头包裹。它像螺旋壳一样卷曲,因此得名。为了进行说明,在图4-4中展示的示意图中,这个2-3/4圈的耳蜗被拉直到其全部长度,约为1英寸。充满液体的内耳由两个膜在纵向上划分:Reissner膜和基底膜。我们立即感兴趣的是基底膜及其对液体中的声音振动的响应。

鼓膜的振动使听小骨活动。附着在卵圆窗上的骨槌运动引起内耳液体的振动。卵圆窗向内运动导致基底膜周围液体的流动,从而使圆窗膜向外运动;因此,圆窗提供了压力释放。作用于卵圆窗的声音导致基底膜上产生驻波。当激励声音的频率改变时,驻波在基底膜上的幅度峰值的位置也会改变。

低频声音在基底膜的远端产生最大振幅;高频声音在卵圆窗附近产生峰值;中频介于两者之间。对于音乐或语音等复杂信号,会产生许多瞬时峰值,这些峰值不断在基底膜上的幅度和位置上变化。最初人们认为基底膜上的这些共振峰过于宽广,无法解释人耳所显示的频率分辨能力的尖锐度。后续的研究表明,在低声 强度下,基底膜的调谐曲线非常尖锐,只有在强声音下才会变宽。似乎基底膜的机械调谐曲线的尖锐度与其所供应的单个听觉神经纤维的尺度相当。

副纤毛

内耳中液体充满的管道上的波动刺激着类似毛发的神经终端,将信号以神经元放电的形式传递到大脑。内耳中有一排内毛细胞和三至五排外毛细胞。每个毛细胞都包含一束称为副纤毛的微小细毛。当声音引起耳蜗液体和基底膜的运动时,副纤毛会根据其周围的振动而振动。沿着基底膜的不同位置的副纤毛会被对应于该位置的特定频率所刺激。内毛细胞可以被看作是微型麦克风,它们是将机械振动转换为电信号的转换器,这些信号激发听觉神经和大脑的神经放电。外毛细胞提供了额外的增益或衰减,以更精确地调节内毛细胞的输出,并使听觉系统更敏感。

副纤毛的弯曲触发了由听觉神经传递到大脑的神经脉冲。单个神经纤维以二进制方式进行放电或不放电。当一个神经放电时,它会导致相邻的神经也放电,依此类推。生理学家将这个过程比作燃烧的火药导火索。脉冲传播的速率与导火索的点燃方式无关。据推测,声音的响度与激发的神经纤维数量以及激发的重复速率有关。当所有神经纤维都被激发时,这就是我们能感知到的最大响度。听觉的阈值灵敏度由一个单独的纤维放电表示。这个系统的灵敏度是非凡的;在听觉阈值处,也就是我们能听到的最微弱的声音,与副纤毛相关的微小纤维约会移动约0.04纳米。

迄今为止,关于内耳和大脑如何运作的一个被广泛接受的理论尚未形成。这里所介绍的是对一个非常复杂的机制进行了高度简化的解释。其中一些理论并不被普遍接受。

响度与频率

关于响度的重要工作是由弗莱彻(Fletcher)和蒙森(Munson)在贝尔实验室进行的,并于1933年发表。此后,其他人进行了改进。在最近的罗宾逊(Robinson)和达德森(Dadson)的工作中,一系列等响度等值线被采纳为国际标准(ISO 226),如图4-5所示。

Images

FIGURE 4-5 纯音对人耳的等响度等值线。这些等值线显示出耳朵对低音的相对缺乏敏感性,特别是在较低的声音水平下。将这些曲线反转可以得到以响度级别来表示的耳朵的频率响应。这些数据是针对位于听者正前方的声源、纯音、双耳听和年龄在18至25岁的被试进行的。(Robinson和Dadson

每个等响度等值线都以其在1 kHz参考频率上的值来标识,因此定义了以phon为单位的响度级别。例如,穿过1 kHz处40 dB声压级的等响度等值线被称为40-phon等值线。同样地,100-phon等值线穿过1 kHz处的100 dB。每个等值线的曲线显示了在不同频率下声压级必须如何变化才能与1 kHz参考响度的40 phons听起来同样响亮。每个等值线是通过实验得到的,实验中要求被试者在不同频率下,声级听起来与1 kHz处的参考声级听起来同样响亮的时候表述出来,该实验在13个不同的参考声级下进行。这些数据是针对纯音的,不能直接应用于音乐和其他音频信号。响度是一个主观的术语;声压级是严格的物理术语。响度级别也是一个物理术语,它在通过声级测量估算声音的响度(以sone为单位)时很有用。然而,响度级别与声压级读数并不相同。等响度等值线的形状包含了主观信息,因为它们是通过主观比较音调在1 kHz处的响度与其它频率下的响度而获得的。

图4-5的曲线显示了感知响度在频率和声压级上的巨大变化。例如,30 dB声压级在1 kHz处产生30 phons的响度级别,但为了在20 Hz处听起来同样响亮,需要额外的58 dB声压级,如图4-6所示。曲线在较高的响度级别处趋于平缓,显示出耳朵在高水平下的响应更加均匀。例如,90-phon等值线在1 kHz和20 Hz之间仅上升32 dB。请注意,反转图4-6的曲线可以得到以响度级别表示的耳朵的频率响应。我们可以看到,在低音量级别下,耳朵对低音音符的敏感性较低于中频音符。耳朵对低音的不足意味着再现音乐的频率保真度取决于音量控制设置。在低水平下听背景音乐将需要与在较高水平下听音乐不同的回放频率响应。耳朵的高频响应也存在偏差,但相对较不明显。

Images

FIGURE 4-6 在20 Hz和1 kHz处对耳朵的响应进行比较。在30 phons的响度级别下,20 Hz音调的声压级必须比1 kHz高58 dB才能具有相同的响度。在90-phon的响度级别下,只需要增加32 dB。在高响度级别下,耳朵的响应相对平坦。响度级别只是真实主观响度的中间步骤。

响度控制

假设您希望以较低的音量(假设为50 phons)播放录音。如果音乐最初以较高的音量(假设为80 phons)播放和录制,您需要增加低音和高音以实现适当的平衡。一些音频设备上的响度控制旨在通过提升低频和高频来补偿不同响度级别下耳朵的频率响应变化。但是,与响度控制的特定设置相对应的EQ曲线可能仅适用于特定响度级别的再现音。这是问题的一种不完全解决方案。考虑影响音量控制设置的诸多因素:对于给定输入功率,扬声器的声学输出会有所变化。功率放大器的增益也不同。听音室的条件从无声到高度多次反射都会影响声场水平。为了使响度控制正常工作,系统必须进行校准,并且响度控制必须自适应地调整频率响应,相对于听众所在的音量水平。这显示了耳朵的非线性级别响应对录制和播放任务引入了复杂性。

听力范围

经过对训练有素的听众进行的测试的结果如图4-7所示。听众面对音源,并判断给定频率的音调是否刚好可听见(轮廓A),或者是否引起耳朵的感觉或感觉开始变得疼痛(轮廓B)。因此,这两个轮廓代表了我们对响度感知的极端。

Images

FIGURE 4-7 人耳的听觉范围由两个阈值轮廓界定。(A)听觉阈定义了耳朵可以检测到的最低级别的声音。(B)感觉阈定义了上限极限。我们所有的听觉体验都发生在此声级和频率范围内。

轮廓A代表听觉阈,表示每个频率上声音刚刚能够被听到的级别。这个轮廓还显示人耳在约3 kHz处最为敏感。换句话说,在约3 kHz处,较低级别的声音比高频或低频引起更强的阈响应。在这个最敏感的区域,一个声压级被定义为0 dB,对于一位具有平均听觉敏锐度的人来说,刚刚能够听到。选取20 μPa的压力作为参考水平,以建立这个0 dB的级别。

轮廓B代表感觉阈,表示每个频率上在耳朵中感觉到刺痛的级别。在3 kHz处,这个感觉发生在约110 dB的声压级下。声压级进一步增加会导致感觉增加,直到产生疼痛感。刺痛的感觉是一个警示,表明声音变得危险地大,听觉损伤要么即将发生,要么已经发生。

在听觉阈和感觉阈之间是听觉范围的区域。这个区域具有两个维度:声压级的垂直范围和耳朵能够感知的频率的水平范围。人类所经历的声音的级别和频率都落在这个听觉区域内。

人类的听觉范围与许多动物有很大的不同。蝙蝠专门使用超出我们听觉范围上限的声波来进行声纳通信。狗的听觉范围比人类更广,因此超声波狗哨很有用。与人类听觉相关的次声和超声区域中的声音在物理意义上同样是真实的声音,但并不引起人类的知觉。

响度与声压级

phon是一个以1 kHz处的声压级为参考的物理响度级单位。这是有用的,但它对于人类对声音响度的反应告诉我们很少。需要一种主观的响度单位。通过对数百名受试者和多种声音进行的许多实验得出的共识是,声压级增加10 dB,平均而言,人们会报告响度加倍。同样,声级减小10 dB,主观响度减半。sone是主观响度的单位。1 sone定义为一个听到40 phons(响度级)的1 kHz音调时人的响度(不是响度级)。2 sones的声音是1 sone的两倍响亮,0.5 sone的声音是一半响亮。

图4-8显示了将声压级转换为响度(sone)的图表。图表上的一个点是sone的定义,即一个人听到40 dB声压级(或40 phons)的1 kHz音调时的响度。2 sones的响度比1 sone高10 dB,0.5 sone的响度比1 sone低10 dB。可以通过这三个点画出一条直线,然后可以对更高和更低响度的声音进行推断。该图仅适用于1 kHz音调。

Images

图4-8 主观响度(sone)与物理响度级(phon)之间的图形关系。该图仅适用于1 kHz音调。

主观响度的概念具有很大的实际价值。例如,法院可能要求顾问就扰民的工业噪音的响度发表意见。顾问可以对噪音进行1/3倍频分析,将每个频带的声压级转换为sone(使用诸如图4-8的图表),将每个频带的sone相加,从而得出噪音的响度估计。将组成部分的sone相加更加方便,而将声压级转换为分贝则不太方便。

表4-1显示了响度级(phon)和主观响度(sone)之间的关系。尽管大多数音频工程师很少使用phon或sone,但了解到真正的主观响度单位(sone)与响度级(phon)相关,而后者又与我们用声级计测量的定义相关,是很好的。有一些经验性的方法可以通过纯粹的声谱物理测量(例如使用声级计和八度频带或1/3倍频滤波器测量)来计算人类感知到的声音响度。

Images

表4-1 响度级(phon)与主观响度(sone)之间的对应关系

响度与带宽

到目前为止,我们已经讨论了单频音调的响度,但是音调并不能提供我们将主观响度与仪表读数联系起来所需的所有信息。例如,一架起飞的喷气式飞机的噪音听起来比相同声压级的音调要响亮得多。噪音的带宽在一定范围内影响声音的响度。

图4-9A表示具有相同60 dB声压级的三种声音(噪声)。它们的带宽分别为100、160和200 Hz,但它们的高度(代表每赫兹声强度)不同,以使它们的面积相等。换句话说,这三种声音的强度相等。(声强度在声学中具有特定的含义,不能等同于声压。声强度与平面波进展的声压的平方成正比。)然而,图4-9A中的这三种声音的响度并不相同。图4-9B显示了以实验确定的方式,具有固定60 dB声压级且以1 kHz为中心的噪声带宽与响度之间的关系。带宽为100 Hz的噪声具有60 phons的响度级和4 sones的响度。带宽为160 Hz的噪声具有相同的响度。但是当带宽增加到160 Hz以上时,一些意想不到的事情发生了。从160 Hz向上,增加带宽会增加响度。例如,带宽为200 Hz的噪声的响度更高。为什么在160 Hz处发生了急剧变化呢?

Images

图4-9 带宽影响声音的响度。(A)三个不同带宽的噪声信号,但它们的声压级都为60 dB。(B)100 Hz和160 Hz的噪声的主观响度相同,但200 Hz带宽的噪声听起来更响,因为它超过了1 kHz处耳朵的160 Hz临界带宽。

原因在于160 Hz是1 kHz处耳朵的临界带宽。这可以通过以下事实得到证明:如果将一个1 kHz的音调与随机噪声一起呈现给听者,只有160 Hz宽度的噪声能够有效地掩盖音调。换句话说,耳朵就像一个由一系列带通滤波器组成的分析器,延伸到整个可听频谱。这个滤波器集合与电子实验室中的滤波器集合不同。常见的1/3倍频带滤波器集可能有28个相邻的滤波器,在-3 dB点处重叠固定。耳朵的临界带滤波器是连续的;无论我们选择什么频率,都会有一个以该频率为中心的临界带。

研究表明,临界带的宽度随频率变化而变化。这个带宽函数在图4-10中显示。特别是在较高频率下,临界带变得更宽。还有其他测量临界带宽的方法;它们在特别是500 Hz以下提供了不同的估计。例如,等效矩形带宽(ERB)(适用于中等声音水平的年轻听者)基于数学方法。ERB的方程式为:

Images

图4-10 1/3倍频带和1/6倍频带、耳朵的临界带和等效矩形带宽(ERB)的带宽比较。

Images

其中,f表示频率,单位为kHz。

1/3倍频带滤波器集在某些测量中得到了证明,因为滤波器的带宽接近耳朵的临界带宽。为了比较,图4-10中包括了1/3倍频带的带宽图。1/3倍频带的宽度为中心频率的23.2%。临界带函数约为中心频率的17%。ERB函数约为中心频率的12%;这接近于1/6倍频带的宽度(11.6%)。这表明1/6倍频带滤波器集可能至少与1/3倍频带滤波器集一样重要。

临界带在许多音频学科中都很重要。例如,基于掩蔽原理,感知编解码器(如MP3和AAC)将掩蔽音调频率处的量化噪声。然而,如果量化噪声超出了临界带的范围,它将不会被音调掩蔽。因此,编解码器试图将噪声限制在由响亮音调创建的临界带宽度掩蔽曲线内。一个临界带的宽度被定义为1巴克(以德国物理学家海因里希·巴克豪森(Heinrich Barkhausen)的名字命名)。

脉冲声的响度

到目前为止讨论的例子都涉及稳态音调和噪声。耳朵对于短时脉冲的反应如何?这是重要的,因为音乐和语音中充满了瞬变。为了将注意力集中在语音和音乐的这个方面上,试试倒放一些音频曲目。初始的瞬变现在出现在音节和音符的末尾,并且非常显眼。

1秒钟的音调脉冲作为1千赫兹的音调听起来就像1千赫兹。但是相同音调的极短脉冲听起来像是一个点击声。这样的脉冲的持续时间也会影响所感知到的响度。短脉冲听起来没有长脉冲那么响。如图4-11所示,较短脉冲的级别必须提高多少才能与长脉冲或稳态音调具有相同的响度。例如,为了与0.5秒(500毫秒)的脉冲具有相同的响度,3毫秒的脉冲必须要比它高约15 dB的级别。音调和随机噪声在响度与脉冲长度之间大致遵循相同的关系。

Images

图4-11 短脉冲的音调或噪声比较难听到,100到200毫秒区域的不连续性与耳朵的积分时间有关。

图4-11中小于100毫秒的区域是重要的。只有当音调或噪声脉冲的持续时间短于这个时间时,声压级才需要增加才能达到与长脉冲或稳态音调/噪声相同的响度。这100毫秒似乎是人耳的最大积分时间或时间常数。特别是在35毫秒内发生的事件,如来自墙壁的反射,会被耳朵综合考虑到级别。这表明耳朵对随时间平均的声能作出反应。

图4-11所示,我们的耳朵对于短暂的声级峰值等瞬变不太敏感。这对于理解语音有直接的影响。语音中的辅音决定了许多单词的含义。例如,bat、bad、back、bass、ban和bath之间唯一的区别就是结尾的辅音。而led、red、shed、bed、fed和wed这些词的所有重要辅音都在开头。无论辅音出现在哪里,它们都是持续时间约为5至15毫秒的瞬变。如图4-11所示,如此短暂的瞬变声音必须更响才能与较长的声音相媲美。在上述单词中,每个辅音不仅比单词的其余部分短得多,而且级别更低。因此,我们需要良好的听觉条件来区分这类单词。过多的背景噪声或过多的混响会严重影响语音的可懂性,因为它们可能掩盖重要且级别较低的辅音。

响度变化的可听度

正如我们所见,耳朵对从最柔和到最响亮的广泛声音动态范围都很敏感。在这个范围内,耳朵对响度的微小变化相对敏感。例如,5 dB的级别变化绝对可听,而0.5 dB的级别变化可能无法听到,具体取决于情况;感知强度差异在一定程度上随频率和声音级别的变化而变化。例如,在1 kHz时,对于非常低的级别,耳朵可以感知到3 dB的变化是最小可察觉到的变化,但在高级别下,耳朵可以感知到0.25 dB的变化。(这是为什么许多录音工程师在高音量播放时进行混音的原因之一。)另一个例子是,非常低级别的35 Hz音调需要9 dB的级别变化才能被察觉到。对于重要的中频范围和常用级别,耳朵可以察觉到的最小级别变化约为2 dB。在大多数情况下,至少在声学设计中,进行小于这些增量的级别变化通常是不必要的。

音高与频率

音高是一个主观的概念。它主要与频率相关,但它与频率之间并没有线性关系。因为音高与频率有些不同,所以需要另一个主观单位——mel。频率是一个以赫兹为单位的物理概念。虽然柔和的1 kHz信号在级别增加时仍然是1 kHz,但声音的音高可能取决于声压级。参考音高为1,000 mels,定义为60 dB声压级下的1 kHz音调的音高。音高与频率之间的关系是通过对听众进行实验得出的,其曲线显示在图4-12中。在实验曲线上,1,000 mels与1 kHz重合;因此,该曲线的声压级为60 dB。图4-12的曲线形状类似于基底膜的位置与频率的函数关系图。这表明音高与基底膜上的活动有关。

Images

FIGURE 4-12 音高(以mel为单位,一种主观单位)与频率(以赫兹为单位,一种物理单位)之间的关系,通过听众评判获得。(Stevens和Volkman.)

研究人员告诉我们,人耳可以感知大约280个可辨别的音强级别步骤和大约1,400个可辨别的音高级别步骤。由于音强和音高的变化对音频交流至关重要,了解可能的组合数量将会很有趣。乍一看,可能会认为人耳可以感知280 × 1,400 = 392,000种组合。然而,这种乐观估计是不现实的,因为测试是通过在快速连续播放的两个简单单频声音之间进行比较进行的,并且与常听到的复杂声音的复杂性几乎没有相似之处。其他实验表明,耳朵只能感知大约7个音量级别和7个音高级别,或者只能感知49个音高-音量组合。或许不是巧合的是,这个数字与一种语言中可被检测到的音素数量(语言中区分一个语音表达和另一个语音表达的最小单位)相差不远。

音高的实验

声音的强度水平会影响音高的感知。对于低频声音,随着声音强度的增加,音高会降低。而对于高频声音,情况相反;音高会随着声音强度的增加而升高。

以下是由弗莱彻提出的一个实验。需要两个音频振荡器和一个频率计数器。将一个振荡器接到播放系统的一个声道输入上,另一个振荡器接到另一个声道上。一个振荡器的频率调整为168 Hz,另一个振荡器的频率调整为318 Hz。在低水平下,这两个音调听起来非常不和谐。如果将168 Hz和318 Hz音调的级别增加,直到(感知的)音高降低到150 Hz和300 Hz,这将产生一个八度关系,听起来非常悦耳。这说明了在较低频率下音高的降低。类似的测试会显示较高频率音调的音高随着声音强度的增加而升高。

缺失的基音

听觉系统有时会对声音的感知产生一些幻觉。如果将1,000 Hz、1,200 Hz和1,400 Hz等音调同时播放,会听到一个200 Hz的音高。这可以解释为基音为200 Hz,1,000 Hz为第五次谐波,1,200 Hz为第六次谐波,依此类推。听觉系统意识到上方的音调是200 Hz音调的谐波,并感知上方的音调是由缺失的基音产生的。

音色与频谱

音色描述了我们对复杂声音的音调特性的感知。这个术语主要用于描述乐器的声音。尽管长笛和双簧管演奏相同的音高,它们的音色是不同的。每种乐器的音色都有其独特之处。音色由乐器的谐波的数量和相对强度决定。

音色是一个主观的术语。类似的物理术语是频谱。乐器产生了一个基频和一组谐波(或泛音),可以通过波形分析器进行分析。例如,假设基频为200 Hz,第二次谐波频率为400 Hz,第三次谐波频率为600 Hz,依此类推。耳朵对我们测得的200 Hz所关联的主观音高会随着声音的级别略有变化。耳朵也对谐波有自己主观的解释。因此,以一种复杂的方式,耳朵对乐器音符的整体音色的感知可能与测得的频谱有很大不同。换句话说,音色(一个主观描述)和频谱(一个客观测量)并不相同。

声源的定位

对声源位置的感知从外耳开始,通过耳廓。从耳廓的脊脊、弯曲和表面反射出的声音与进入听觉通道的非反射直达声音相结合。这种结合经过耳廓的方向编码,然后沿着听觉通道传递到鼓膜、中耳和内耳,最终到达大脑进行解读。

声音信号的方向编码过程如图4-13所示。声音波前可以被看作是来自特定源的特定水平和垂直角度的多条声音射线。当这些射线击中耳廓时,它们会从表面反射,其中一些反射会朝向听觉通道的入口。在那一点,这些反射成分会与非反射成分结合在一起。

Images

图4-13 声音的波前可以被视为垂直于该波前的许多射线。这些射线在耳廓上反射,从各个脊脊和弯曲处反射。那些指向耳道开口的反射会按照相对振幅和相位进行矢量叠加。通过这种方式,耳廓会对落在耳朵上的所有声音进行方向编码,而大脑会解码为方向感知。

对于直接来自听者前方(方位角和垂直角度为0°)的声音,在耳道开口处的组合声音的“频率响应”如图4-14所示。这种曲线被称为传递函数;它表示涉及相位角的矢量叠加。

为了让进入耳道开口处的声音到达鼓膜,必须通过听觉通道。当耳道开口处的传递函数(参见图4-14)与耳道本身的传递函数结合时,作用在鼓膜上的传递函数的形状会发生根本性的变化。耳道本身的传递函数是一个静态的、固定的函数,不随声音到达方向的变化而变化。正如我们所见,耳道的作用类似于一个由鼓膜封闭的四分之一波长管,具有显著的共振。

表示特定源方向的传递函数(参见图4-14)与耳道的固定传递函数相结合,给出了图4-15中作用在鼓膜上的传递函数。在这个例子中,大脑将其解读为声音来自听者正前方的感知。

Images

图4-14 测量示例,显示了与声音从听者正前方到达的声压(传递函数)相对应的耳道开口处的形状。这样的传递函数的形状会随着声音到达耳廓的水平和垂直角度而变化。(Mehrgardt和Mellert。

Images

图4-15 图4-14中耳道开口处的传递函数与耳道的传递函数相结合后,在鼓膜上发生了这种形状的改变。换句话说,从直接来自观察者正前方的源的声音(参见图4-14),描述了鼓膜上的这种响应,因为它已经与耳道本身的特性相结合。大脑会从每个变化的到达声音中抵消耳道的固定影响。

耳道开口处的传递函数在水平和垂直方向上具有不同的形状。这是耳廓对所有到达声音进行编码的方式,使得大脑能够产生不同的方向感知。到达鼓膜的声音是所有方向感知的原材料。大脑忽略了耳道的固定成分,并将不同形状的传递函数转化为方向感知。

耳廓的另一个更明显的方向功能是前后方向的区分,这并不直接依赖于空间编码。在较高的频率(较短的波长)下,耳廓是一个有效的屏障;来自后方的声音具有相对较低的高频水平。大脑利用这种前后区分来传达一个大致的方向感知。

耳朵还能较弱地感知垂直定位。中位面是通过头部和鼻子中心对称通过的一个垂直面。位于该面内的声源对两只耳朵呈现出相同的传递函数。听觉机制使用另一种技术进行这种定位,即为不同频率赋予一定的位置特性。例如,接近500和8,000 Hz的信号成分被感知为来自正上方,接近1,000和10,000 Hz的成分被感知为来自后方。

从听众正前方到达的声音导致鼓膜传递函数在2-3 kHz区域出现峰值。这在一定程度上是通过在该频率区域添加均衡增益来赋予录制声音“存在感”的基础。通过在语音响应中添加这样的峰值,声音也可以从音乐背景中突出。

双耳定位

两只耳朵在双耳听觉中共同发挥作用,允许在水平平面上定位声源。两只耳朵的信号在大脑中合并;因此,定位主要发生在大脑中,而不是在单独的耳朵中。涉及到两个因素,即声音在两只耳朵上落下的强度差异和到达时间差异(相位)。在图4-16中,离声源最近的耳朵接收到的声强大于远处的耳朵,因为它更靠近,并且由于头部形成了声学阴影。由于衍射,较低频率的声学阴影要弱得多。然而,在较高频率下,声学阴影与路径长度差异相结合,导致离声源最近的耳朵上出现较高的声强。

Images

图4-16 我们的双耳定位感部分取决于两只耳朵接收到的声音的强度差异和到达时间差异。

由于与声源的距离差异,近耳接收到的声音比远耳稍早一些。在1 kHz以下,相位(时间)效应占主导地位,而在1 kHz以上,声强效应占主导地位。存在一个定位盲区。听众无法确定声音是来自正前方还是正后方,因为每只耳朵接收到的声音强度相同且相位相同。借助这些线索,耳朵可以将声源在水平平面上定位到1°或2°的精度。

第一波前律

最先到达的声音在听众中引起了方向感知,这有时被称为第一波前律。想象一下,有两个人在一个小房间里,一个人在说话,另一个人在听。首先到达听众耳朵的声音是沿着直接路径传播的声音,因为它行进的距离最短。这个直接声音建立了声音来自哪个方向的感知。即使随后会有来自房间各个表面的大量反射声,这种方向感知仍然存在,并且在涉及方向时往往减弱后续反射的影响。对于确定声源方向,这种声音方向的辨别在几毫秒内完成。

Franssen效应

耳朵相对擅长于确定声源的位置。然而,它还使用了一种听觉记忆,有时可能会混淆方向。Franssen效应展示了这一点。在一个真实的房间中,将两个扬声器分别放置在听众的左侧和右侧。扬声器距离听众约3英尺,呈45°角。通过左侧扬声器播放正弦波,然后立即将信号在右侧扬声器中淡出并同时淡入,因此整体音量没有明显变化。大多数听众将继续将信号定位在左侧扬声器上,即使左侧扬声器处于静音状态,声音位置已经改变到右侧扬声器。当断开左侧扬声器的电缆时,他们仍然会“听到”信号来自左侧扬声器。这展示了听觉记忆在声音定位中的作用。

前导(Haas)效应

我们的听觉机制在短时间内将空间分离的声音整合起来,在特定条件下倾向于将它们视为来自一个位置。例如,在一个礼堂中,耳朵和大脑有能力在直接声音之后的约35毫秒内收集所有到达的反射声,并将它们结合(整合)起来,给人一种整个声场都来自原始声源方向的印象,即使涉及了来自其他方向的反射声。最先到达的声音确定了后续声音的感知源位置。这种现象有时被称为前导效应或Haas效应,并遵循第一波前律。在这段时间内整合的声能也给人以声音增加的印象。

人耳在特定时间窗口内融合声音并不太令人惊讶。毕竟,在电影院,我们的眼睛将一系列静止图像融合在一起,给人以连续运动的印象。静止图像的呈现速率很重要;必须至少每秒16幅图像(62毫秒间隔)才能避免看到一系列静止图像或闪烁。听觉融合同样是一个时间融合的过程。听觉融合在声音开始后的前35毫秒内效果最佳;超过50到80毫秒后,整合效果会崩溃,并且在延迟较长时会听到离散的回声。

Haas将受试者放置在距离两个扬声器3米的位置上,两个扬声器的布置使其形成45°的角度,听众的对称线将这个角度分成两半(文献对于角度存在一定的模糊性)。屋顶的条件大致上是无回声的。两个扬声器播放相同的语音内容,音量相同,但其中一个扬声器相对于另一个扬声器有延迟。显然,未延迟的扬声器的声音先于延迟的扬声器到达听音位置。Haas研究了延迟对语音信号的影响。如图4-17所示,Haas发现在5到35毫秒的延迟范围内,延迟的扬声器的声音被感知为来自未延迟的扬声器。换句话说,听众将两个声源定位在未延迟源的位置上。

Images

FIGURE 4-17 前导效应或Haas效应在人类听觉系统中描述了时间融合。在5到35毫秒的范围内,回声的水平必须比直接声音高约10 dB才能作为回声被感知到。在这个范围内,来自多个方向的反射声成分被耳朵整合。由此产生的声音似乎来自直接源,并且由于反射声而显得更响。对于50到100毫秒及更长的延迟,反射声被感知为离散的回声。(Haas.

此外,在延迟声音的级别必须比未延迟声音增加10 dB以上才能听到其位置分离出来。在房间中,35毫秒内到达耳朵的反射能量与直接声音在空间上进行整合,被感知为直接声音的一部分,而不是混响声音。这有时被称为融合区或Haas区域。这些整合的早期反射增加了直接声音的响度,并且可以改变其音色。正如Haas所说,它们导致“. . .声音印象的愉快修改,使主要声源的感知范围扩大,而不会在声学上感知到回声源。”

对于延迟小于35毫秒的整合效应和将延迟声音感知为空间离散的转换区域是逐渐的,因此有些不确定。一些研究者将分界线设置为62毫秒(1/16秒),一些为80毫秒,一些为100毫秒,超过这个时间后,延迟声音的离散位置是毫无疑问的。如果延迟声音被衰减,融合区域将扩展。例如,如果延迟声音相对于第一个声音为-3 dB,整合将延伸到大约80毫秒。房间的反射声音级别较低,因此我们预计整合的时间将延长。然而,对于非常长的延迟,可能达到250毫秒或更长时间,延迟声音明显听到作为一个离散的回声。

其他研究人员之前发现,我们通过两只耳朵略有不同的到达时间来辨别声源的方向时,涉及非常短的延迟(<1毫秒)。大于此的延迟不会影响我们的定向感知。

先行效应很容易进行演示。站在距离混凝土墙100英尺的位置,拍一下手,会听到明显的回声(177毫秒)。当你靠近并继续拍手时,回声会更早地到达并且会更响亮。但是当你进入融合区域时,你的耳朵会将回声与直接声音在空间上进行整合;你不会感知到回声。

反射声音的感知

在前面的部分,我们以相对有限的方式考虑了“反射”声音。在本部分中,我们采用了一种更一般的方法。Haas和其他研究人员使用的是一种常见的立体声设备布置,听众位于两个分开的扬声器之间的对称位置。一个扬声器的声音被指定为直接声音,另一个扬声器的声音被称为延迟声音(反射声音)。注入在两个信号之间的延迟以及它们的相对音量是可调节的。

在将直接扬声器的声音设置为舒适音量的情况下,以及设置10毫秒的延迟,反射声音(延迟声音)的音量逐渐增加。观察者首次察觉到声音差异的反射声音水平是反射声音检测的阈值。在低于此阈值的水平下,反射声音是听不到的;在高于此阈值的水平下,反射声音是明显可听到的。

随着反射声音水平逐渐增加超过阈值值,给合声音赋予了一种宽敞感。即使实验在无混响的空间进行,这种宽敞感仍然存在。随着反射声音水平增加约10 dB以上,声音中还会注意到另一个变化;声音形象的扩展以及可能向直接扬声器的声音形象的移动,加强了宽敞感。当反射声音水平再增加约10 dB或更多超过声音形象扩展的阈值时,会听到离散的回声。

这有什么实际价值呢?以用于播放录制音乐的听音室为例。图4-18显示了在扬声器的直接声音中添加的横向反射的效果。使用语音作为信号。低于感知阈值的反射是无用的;被感知为离散回声的反射也是无用的。可用区域是这两个阈值曲线A和C之间的未阴影区域。通过计算,可以根据声音的速度、传播距离和应用反比平方定律来估计任何特定反射的水平和延迟。图4-18还显示了听众对反射声音和直接声音的组合可能产生的主观反应。

Images

FIGURE 4-18 在模拟立体声布置中,横向反射对直接声音知觉的影响。这些测量是在无混响条件下进行的,横向角度为45°至90°,信号为语音。曲线A是反射声音的绝对可听度阈值。曲线B是声音形象移动/扩展的阈值。曲线C是被感知为离散回声的横向反射声音。(A和B,Olive和Toole,以及TooleC,Meyer和Schodder,以及Lochner和Burger。

为了辅助之前提到的计算,可以应用以下方程式:

Images

这假设反射表面有100%的反射率。两条路径的长度以英尺为单位测量;声音的速度以每秒英尺为单位测量。

Images

这假设传播遵循反比平方定律。两条路径的长度以英尺为单位测量。

例如,在一个礼堂中,房间的几何形状可以设计成时间延迟小于50毫秒,因此处于融合区内。考虑一条路径长度为50英尺的直接声音和一条路径长度为75英尺的早期反射声音,两者都到达听众。产生的时间延迟为22毫秒,远远小于融合区的范围。同样,通过将直接声音和早期反射之间的时间延迟限制在50毫秒以下(路径长度差约55英尺),听众将不会将反射声音听作离散回声。如果考虑到反射声音的典型衰减,略大于50毫秒的差异是可以接受的。一般而言,对于语音,允许的最大差异为50毫秒,而对于音乐,允许的最大差异为80毫秒。更短的差异更好。正如我们将在后面看到的,先行效应也可以用于设计有活动端和无活动端(LEDE)的控制室。

鸡尾酒会效应

人类听觉系统具有强大的区分不同声音并将注意力集中在其中一个声音上的能力。这有时被称为“鸡尾酒会效应”或“听觉场景分析”。想象一下自己参加一个拥挤的派对,有很多人在说话,音乐在播放。你能够听取一个说话者的声音,同时排除其他许多对话和声音。如果有人在房间的另一边说出你的名字,你会警觉起来。有证据表明,音乐家和指挥在这种听觉分离方面非常擅长;他们可以同时独立地追随多个乐器的声音。

我们的定位能力极大地帮助了我们区分特定声音的能力。如果两个说话者的声音通过一个扬声器播放,很难区分它们。然而,如果设置两个物理上分离的扬声器,一个声音通过一个扬声器播放,另一个声音通过另一个扬声器播放,那么同时跟随两个声音就很容易(相对语言、性别和说话者音调等因素也起着一定作用)。虽然人类在鸡尾酒会上区分源的能力良好,但电子信号处理系统却更难实现。这个信号处理领域被称为源分离或盲源分离。

听觉非线性

当多个频率输入线性系统时,输出的频率与输入相同。然而,耳朵是一个非线性系统。当输入多个频率时,输出可能包含额外的频率。这是听觉系统引入的一种失真形式,无法通过普通仪器测量。这是一种主观效应,需要采用不同的方法。以下实验展示了耳朵的非线性特性和听觉谐波的输出。可以使用立体声播放系统和两个音频振荡器进行实验。将一个振荡器插入左声道,另一个插入右声道,并在某个中频下调整两个声道的音量至相等且舒适的水平。然后将一个振荡器调至23 kHz,另一个调至24 kHz,同时不改变音量设置。单独使用任一振荡器时,听不到任何声音,因为信号超出了耳朵的范围。然而,如果

高音喇叭足够好,你可能会听到一个明显的1 kHz音调。

1 kHz的音调是23 kHz和24 kHz之间的差值。和谐波频率和差值频率,例如47 kHz,在两个纯音调混合时会生成。这种非线性元素在这种情况下是中耳和内耳。除了互调产物外,耳朵的非线性还会产生新的谐波,这些谐波在落在鼓膜上的声音中是不存在的。

还可以使用上述相同的设备进行另一项听觉非线性实验,只需增加耳机。首先,将150 Hz音调应用于左侧耳机声道。如果听觉机制完全线性,当右侧耳机声道中的探测音调在第二、第三和其他谐波频率附近上升时,不会听到任何听觉谐波。然而,由于存在非线性,通过产生拍音来指示听觉谐波的存在。当左耳接收150 Hz音调,右耳的探测音调围绕300 Hz缓慢变化时,两者之间的拍音表明存在第二谐波。如果将探测振荡器的频率改为约450 Hz,通过拍音也可以显示出第三谐波的存在。研究人员通过拍音的强度估计了谐波的大小。使用更高音量的音调进行这个实验会更明显地显示出听觉谐波的存在。

主观评估与客观测量

主观的声音质量评估和客观的测量之间仍然存在着巨大的差距。考虑以下常用于描述音乐厅音效的词语:温暖、低音、清晰度、余音、音色的丰满度、生动感、音质、明亮度、共鸣、混合和亲密感。没有仪器可以直接测量温暖或明亮度等特性。然而,在某些情况下,主观术语可以与客观测量相关联。例如,考虑术语“清晰度”。德国的研究人员采用了“deutlichkeit”这个词,它的字面意思是清晰或明显。它通过将前50到80毫秒的回声图中的能量与整个回声图的能量进行比较来进行测量。这将直接声音和早期反射(由耳朵整合)与整个混响声音进行比较。这是对来自手枪或其他来源的冲击声音的直接测量。

测量非常重要,但耳朵是最终的仲裁者。人类被试的观察为任何声学评估提供了宝贵的信息。例如,在一个音量调查中,听众小组会听到各种声音,并要求每个观察者比较声音A和声音B的响度。然后,通过对听众小组提交的数据进行统计分析,评估了人类感官因素(如响度)与声音级别的物理测量之间的关系。如果测试得当并涉及足够多的观察者,结果是可信的。通过这种方式,例如,我们发现声音级别与响度、音高与频率、音色与声音质量之间没有线性关系。

将听众的主观印象与客观设计参数相关联是可取的。这使得设计者可以了解音频保真度存在的限制,并知道在哪些方面可以进行改进。例如,这种知识将允许优化音乐厅的声学特性。听众印象与客观测量现象之间的相关性是一个困难的问题。并非总是已知相关性。一种将主观印象与客观数据相关联的方法是通过研究,特别是通过严谨的听觉评估。随着时间的推移,可能会出现模式,提供相关性。尽管相关性是可取的,但没有它,严谨的听觉评估仍然起着重要的作用。

职业性和娱乐性听力损失

听力损伤是一种严重的职业危害。工业工厂工人、卡车司机和许多其他人可能面临潜在危害的噪音水平。随着时间的推移,经过反复暴露,可能会出现听力损失。听力学家确定了工人在不同环境中所受到的噪音暴露。这并不容易,因为噪音水平会波动,工人也会移动;可穿戴式剂量计通常用于整合一天工作时间的暴露情况。公司通常在有问题的设备周围安装噪音屏障,并要求工人佩戴耳塞或耳罩。

工业工人的听力受到法律保护。美国劳工部下属的联邦职业安全与健康管理局(OSHA)维护工作场所的噪音暴露限制。职业性噪音越高,允许的暴露时间就越少。噪音暴露以每日噪音剂量的形式进行衡量,对应一个8小时的工作日。 表4-2 列出了使用标准声级仪的慢响应测量的每日允许噪音暴露。最大允许剂量为每日限制的100%。剂量的计算方式是将工人暴露于不同噪音水平的时间与该水平允许的最大暴露时间相对比。例如,工人可能会暴露于90分贝A声级的噪音8小时,100分

贝A声级的噪音2小时,或115分贝A声级的噪音15分钟。当每日暴露由两个或更多噪音水平组成时,总噪音剂量由以下公式给出:

Images

表4-2 OSHA 允许噪音暴露时间

Images

其中 C = 暴露时间,小时

      T = 噪音暴露限制,小时

例如,当工人暴露于100分贝A声级的噪音1.5小时,以及95分贝A声级的噪音0.5小时时,噪音剂量为 D = 1.5/2 + 0.5/4 = 0.90。因此,工人暴露了最大允许噪音的90%。

时间加权和A加权声级,有时称为TWA,也可以计算为 TWA = 105 − 16.6 log (T)。随后的听力保护措施要求以100 − 16.6 log (T)的TWA为基准。

其他噪音暴露规定由环境保护局、住房和城市发展部、工伤赔偿和其他机构和非政府组织制定。这些规定可能经常发生变化。以高监控水平操作的专业音频工程师可能会对听力造成无法挽回的损伤;在大多数情况下,他们的工作不受职业性噪音保护法律的约束。

危险的噪音暴露不仅是一个职业问题,也是一个娱乐问题。一个人可能整天在高噪音环境中工作,然后享受摩托车或汽车比赛,听高音量的音乐播放,或在夜店度过几个小时。随着高频损失的逐渐出现,音量控制会被调高以进行补偿,导致损害的速度加快。

听力图是保护听力的重要工具。将当前听力图与早期听力图进行比较可以确定趋势;如果是向下的趋势,可以采取措施解决原因。图 4-19 的听力图是录音棚的混音工程师的听力图,显示了严重的听力损失。这种听力损失主要集中在4 kHz,可能是多年来在控制室中听高音量声音的积累结果。

Images

图4-19 听力图显示严重的听力损失,主要集中在4 kHz,可能是由于多年在录音棚的控制室中暴露于高音量声音的结果。

要点

• 外耳廓和听觉管作为一个四分之一波长管,在接近3 kHz的区域提供声学放大。关键的语音频率位于这个区域。

• 中耳的骨头(听小骨)的杠杆作用和鼓膜与卵圆窗面积之比有效地匹配了空气的阻抗与内耳的液体阻抗。

• 内耳中由卵圆窗振动引起的波动会激励感觉毛细胞,然后将信号传递到大脑。存在一个位置效应,即高频的毛细胞激动的峰值更靠近卵圆窗,而低频则位于远端。

• 听觉区域的范围由两个阈值曲线界定,即软弱的听觉阈和响度的阈。我们的听觉体验发生在这两个极端之间。

• 音调爆发的响度随着爆发长度的减小而降低。大于200毫秒的爆发具有完全的响度,表明耳朵的时间常数约为100毫秒。

• 我们的耳朵能够准确地定位水平平面上的声源方向。然而,在垂直中线平面上,定位能力较差。

• 音高是一个主观的术语。频率是相关的物理术语,二者之间只有一般的关系。

• 主观音质或声音的品质与声音的物理频谱有关,但并不等同。

• 耳朵的非线性性会产生互调产物和虚假谐波。

• 先导效应,或称为哈斯效应,描述了耳朵在前35毫秒内能够整合所有到达的声音,使我们产生声音来自先前源的感知,并使声音听起来更响。

• “鸡尾酒会效应”表明我们的定位能力极大地帮助我们区分特定的声音。

• 虽然耳朵通常不擅长评估绝对的声音参数,但在比较频率、级别和声音品质方面非常敏锐。

• 职业和娱乐噪声可能导致暂时和永久性听力损失。建议采取预防措施来最大程度地减少这种环境引起的耳聋。