加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

音频分析中用到的一些基本概念

(2011-02-13 15:23:51)
标签:

音频分析

采样

傅立叶变换

foobar2000

教育

分类: 各类归结

写在“各类归结”中的东西,不是因为熟知,而恰恰是因为曾经不会。各种自学、笔记。希望看到的人免于我曾经的纠结。 

---------------------------------------------- 

 

1  音频参数:采样频率、声道、采样精度、比特率、编码方式

Foobar2000音乐播放器界面(图1)为例说明,左下角视图为波形,右下为频谱,右上为音乐文件常规属性(此界面是为叙述方便而定义,不代表软件本身属性)。

 

http://s6/middle/5d054effh9c24d80bbf05&690

1 Foobar2000音乐播放器界面 

人耳听到的声音,无论多么复杂,都可在时域表示为一道模拟、连续的波形(图1左下所示)。所谓“复杂”实际上是多个声音信号波形叠加的结果,可经过分解得到若干不同频率的正弦波,因而其经过傅里叶变换在频域可以以频率为横轴、幅度为纵轴表示,不同频率上的不同幅度表明构成声音信号的频率分量的强弱(图1右下所示)。这种特点是音频分析的理论基础。

要想把模拟、连续的音乐信号储存为数字音频,须将此信号通过模/数转换,对波形曲线采样,以样本值的序列来表示声音信号。一般而言,采样时有以下几个需要考虑的参数:

1)采样频率(图1右上第3行):表示每秒钟所取得的声音数据样本数,以Hz为单位。人声频率一般在300Hz3.4kHz,人耳能听到的音乐频率一般在20Hz20kHz。根据奈奎斯特采样定理,若要使信号无失真保留,采样频率须高于两倍信号带宽。采样频率越高,音质越好,但是数据量越大。

2)声道(图1右上第4行):一般只分单声道和双声道,双声道即是立体声。双声道效果较好,但数据量是单声道的两倍。

3)采样精度(图1右上第5行):表示每个数据样本所用的二进制位数,常用8-bit16-bit。即每个样本的数值都是固定长度的整数,以便于存储,精度越大,量化误差越小,恢复出的音质越好,同样,数据量也越大。

4)比特率(图1右上第6行):表示单位时间播放音频的比特数量,相当于数字带宽消耗量。它与采样频率、采样精度、编码方式、压缩方式有关,不是一个独立的参数,在同一编码、压缩方式下,若采样频率、精度确定,则比特率确定。但它可以直观反映每秒所使用的空间(如硬盘)大小,比特率越高,音质越好,数据量越大。

5)编码方式(图1右上第7行):表示音频编码的方式,常见的如MP3WMAPCM(文件名后缀“.wav”)等。MP3WMA为有损类编码,PCM为无损类编码,同等音质下后者占用空间较大。

现在假设某段乐曲有30秒,8-bit采样,频率为44100Hz,双声道,PCM编码,则样本总数为2646000个。

2  音乐特征:音量、音高、音色,帧长、帧重叠、帧距、帧率

如上所述,可通过绘制波形的方式研究音乐特征。从图2的波形上看,音乐具有如下特征:

1)长期特征(一段乐曲):波形变化大,周期无规律;

2)短期特征(一帧):波形变化小,周期有规律。

长期特征表明了各首不同乐曲之间的宏观差异,通过这种差异我们可以将音乐分为若干类;短期特征表明了一帧音乐的基本特征,通过这个特征我们可以将大段音乐文件分帧,用特征值来表示一帧音乐,从而减少进行后续处理时的数据量。

 

http://s7/middle/5d054effh9c24de6694d6&690

2 音乐波形特征 

从中可提取出的常用音乐特征有:

1)音量:音乐的强弱。与振动幅度有关,振动幅度越大,响度越大。常以分贝(dB)为单位。

2)音高:即所谓的“调”。与振动的基本频率有关,频率越大,音高越高。

3)音色:声音的特质。不同乐器、演唱者发出的声音,其音色是不同的,基本与周期内波形有关,也就是之前所述的波形叠加的组成分量、大小不同。

其中音高、音色从时域都很难分析,这就需要用到频域分析。最常用的方法是进行快速傅立叶变换(FFT),将信号从时域转到频域上进行处理,它可以分析出每帧信号在不同频率分量上的强度。对提取特征而言,做法是将音乐分帧,对每一帧进行频谱分析,算出每帧的信号如何拆解成在不同频率的分量,然后再进行比对或进一步操作。

以上分析中需用到几个基本概念:

1)帧长:每帧内的样本点数,即“每帧时间长度×采样频率”。每帧时间大约为1030ms,过大无法抓住帧间差别,即音乐随时间变化的总体特性;过小则无法抓出帧内声音信号的特征。一般而言,帧长必须能够包含数个声音信号的基本周期。此外,帧长通常取为2的整数次幂,若不是,则在进行傅立叶变换时,需补零至2的帧数次幂,以便使用FFT,这是由FFT的算法决定的。

2)帧重叠:帧之间重叠的样本点数。如果希望相邻帧之间的变化不是太大,可以允许帧之间有重叠,重叠部分可以是帧长的1/21/3不等。重叠部分越多,计算量越大。

3)帧距:此帧起点与下帧起点之间的距离点数。当不存在跳帧,即每个样本点至少位于一帧中的情况下,帧重叠不小于零,帧距等于帧长减去帧重叠。

4)帧率:每秒出现的帧数。等于采样频率除以帧距。

 

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有