多年来,研究人员一直在寻找将声音分解成基本成分的方法。19世纪20年代,法国科学家约瑟夫·傅立叶(Joseph Fourier)提出,任何信号,包括声音,都可以用足够数量的正弦波来构建。这些波听起来像哨声,每个都有自己的频率、水平和开始时间,是声音的基本组成部分。
然而,一些声音,如长笛和人的呼吸声,可能需要数百甚至数千个正弦来精确地模仿原始波形。这是因为这些声音包含一个不太和谐,更嘈杂的结构,其中所有频率同时出现。一种解决方案是将声音分为正弦和噪声两类分量,以较少数量的呼啸正弦波,并结合可变噪声或嘶嘶声来完成模仿。
即使这个“完整的”双分量声音模型在声音事件开始的平滑方面也存在问题,例如声音中的辅音或音乐中的鼓声。第三种成分,称为瞬态,在2000年左右被引入,以帮助模拟这种声音的清晰度。瞬态听起来就像咔哒声。从那时起,声音通常被分为三个部分:正弦、噪声和瞬态。
现在,阿尔托大学声学实验室(Aalto University Acoustics Lab)的研究人员利用听觉感知、模糊逻辑和完美重建的思想,对正弦、噪声和瞬态的三分量模型进行了改进。他们的研究发表在《音频工程学会杂志》(Audio Engineering Society)上。
博士研究员Leonardo Fierro和Vesa教授Välimäki意识到人们听到不同成分和不同的口哨声,咔嚓声和嘶嘶声的方式很重要。如果咔哒声快速传播开来,听起来更嘈杂;相比之下,专注于非常简短的声音可能会导致音调的损失。
这种来自听觉感知的洞察力与模糊逻辑相结合:在任何时刻,声音的一部分可以属于三种正弦、瞬态或噪声中的任何一类,而不仅仅是其中之一。为了完美的重建,Fierro优化了声音的分解方式。
在增强方法中,正弦和瞬态是声音的两种相反的特征,不允许声音同时属于这两类。然而,两种相反的成分类型中的任何一种仍然可以与噪声同时发生。因此,模糊逻辑的思想以一种有限的方式存在。噪音是正弦和瞬态之间的模糊联系,描述了简单的咔哒声和哨声无法捕捉到的声音的所有细微差别。Fierro:“这就像找到一块缺失的拼图,把以前不匹配的两个部分连接起来。”
在听力测试中,将这种增强的分解方法与以前的方法进行了比较。11位有经验的听众分别被要求听几段短音乐,并使用不同的方法从中提取成分。
根据听众的评分,这种分解大多数声音的新方法脱颖而出。只有在音乐声音中出现强烈的颤音时,例如在歌声或小提琴中,以前的一些方法更优越。
新分解方法的一个测试用例是声音的时间尺度修改,特别是音乐的慢化。在一次偏好听力测试中,该新方法与之前的方法进行了对比,后者在几年前的一项比较研究中被选为最佳学术技术。菲耶罗的新方法再次获得了明显的胜利。
Välimäki教授说:“新的声音分解方法为声音处理开辟了许多令人兴奋的可能性。”“声音的慢化是我们目前的主要兴趣。令人惊讶的是,例如在体育新闻中,慢动作视频总是无声的。原因可能是当前慢速音频工具的音质不够好。我们已经开始开发更好的时间尺度修改方法,它使用深度神经网络来帮助拉伸某些组件。”
高质量的声音分解也使新型的音乐混音技术成为可能。其中之一导致无失真的动态范围压缩。也就是说,瞬态分量通常包含声音波形中最大的峰值,因此简单地降低瞬态分量的电平并将其与其他分量混合可以限制音频的峰值·。
图片