音频分析中用到的一些基本概念_雅楠七月

http://blog.sina.com.cn/u/1560628991

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

音频分析中用到的一些基本概念

(2011-02-13 15:23:51)

标签：

音频分析

采样

傅立叶变换

foobar2000

教育

分类：各类归结

写在“各类归结”中的东西，不是因为熟知，而恰恰是因为曾经不会。各种自学、笔记。希望看到的人免于我曾经的纠结。

----------------------------------------------

1 音频参数：采样频率、声道、采样精度、比特率、编码方式

以Foobar2000音乐播放器界面（图1）为例说明，左下角视图为波形，右下为频谱，右上为音乐文件常规属性（此界面是为叙述方便而定义，不代表软件本身属性）。

http://s6/middle/5d054effh9c24d80bbf05&690

图1 Foobar2000音乐播放器界面

人耳听到的声音，无论多么复杂，都可在时域表示为一道模拟、连续的波形（图1左下所示）。所谓“复杂”实际上是多个声音信号波形叠加的结果，可经过分解得到若干不同频率的正弦波，因而其经过傅里叶变换在频域可以以频率为横轴、幅度为纵轴表示，不同频率上的不同幅度表明构成声音信号的频率分量的强弱（图1右下所示）。这种特点是音频分析的理论基础。

要想把模拟、连续的音乐信号储存为数字音频，须将此信号通过模/数转换，对波形曲线采样，以样本值的序列来表示声音信号。一般而言，采样时有以下几个需要考虑的参数：

（1）采样频率（图1右上第3行）：表示每秒钟所取得的声音数据样本数，以Hz为单位。人声频率一般在300Hz—3.4kHz，人耳能听到的音乐频率一般在20Hz—20kHz。根据奈奎斯特采样定理，若要使信号无失真保留，采样频率须高于两倍信号带宽。采样频率越高，音质越好，但是数据量越大。

（2）声道（图1右上第4行）：一般只分单声道和双声道，双声道即是立体声。双声道效果较好，但数据量是单声道的两倍。

（3）采样精度（图1右上第5行）：表示每个数据样本所用的二进制位数，常用8-bit和16-bit。即每个样本的数值都是固定长度的整数，以便于存储，精度越大，量化误差越小，恢复出的音质越好，同样，数据量也越大。

（4）比特率（图1右上第6行）：表示单位时间播放音频的比特数量，相当于数字带宽消耗量。它与采样频率、采样精度、编码方式、压缩方式有关，不是一个独立的参数，在同一编码、压缩方式下，若采样频率、精度确定，则比特率确定。但它可以直观反映每秒所使用的空间（如硬盘）大小，比特率越高，音质越好，数据量越大。

（5）编码方式（图1右上第7行）：表示音频编码的方式，常见的如MP3、WMA、PCM（文件名后缀“.wav”）等。MP3、WMA为有损类编码，PCM为无损类编码，同等音质下后者占用空间较大。

现在假设某段乐曲有30秒，8-bit采样，频率为44100Hz，双声道，PCM编码，则样本总数为2646000个。

2 音乐特征：音量、音高、音色，帧长、帧重叠、帧距、帧率

如上所述，可通过绘制波形的方式研究音乐特征。从图2的波形上看，音乐具有如下特征：

（1）长期特征（一段乐曲）：波形变化大，周期无规律；

（2）短期特征（一帧）：波形变化小，周期有规律。

长期特征表明了各首不同乐曲之间的宏观差异，通过这种差异我们可以将音乐分为若干类；短期特征表明了一帧音乐的基本特征，通过这个特征我们可以将大段音乐文件分帧，用特征值来表示一帧音乐，从而减少进行后续处理时的数据量。

http://s7/middle/5d054effh9c24de6694d6&690

图2 音乐波形特征

从中可提取出的常用音乐特征有：

（1）音量：音乐的强弱。与振动幅度有关，振动幅度越大，响度越大。常以分贝（dB）为单位。

（2）音高：即所谓的“调”。与振动的基本频率有关，频率越大，音高越高。

（3）音色：声音的特质。不同乐器、演唱者发出的声音，其音色是不同的，基本与周期内波形有关，也就是之前所述的波形叠加的组成分量、大小不同。

其中音高、音色从时域都很难分析，这就需要用到频域分析。最常用的方法是进行快速傅立叶变换（FFT），将信号从时域转到频域上进行处理，它可以分析出每帧信号在不同频率分量上的强度。对提取特征而言，做法是将音乐分帧，对每一帧进行频谱分析，算出每帧的信号如何拆解成在不同频率的分量，然后再进行比对或进一步操作。

以上分析中需用到几个基本概念：

（1）帧长：每帧内的样本点数，即“每帧时间长度×采样频率”。每帧时间大约为10—30ms，过大无法抓住帧间差别，即音乐随时间变化的总体特性；过小则无法抓出帧内声音信号的特征。一般而言，帧长必须能够包含数个声音信号的基本周期。此外，帧长通常取为2的整数次幂，若不是，则在进行傅立叶变换时，需补零至2的帧数次幂，以便使用FFT，这是由FFT的算法决定的。

（2）帧重叠：帧之间重叠的样本点数。如果希望相邻帧之间的变化不是太大，可以允许帧之间有重叠，重叠部分可以是帧长的1/2到1/3不等。重叠部分越多，计算量越大。

（3）帧距：此帧起点与下帧起点之间的距离点数。当不存在跳帧，即每个样本点至少位于一帧中的情况下，帧重叠不小于零，帧距等于帧长减去帧重叠。

（4）帧率：每秒出现的帧数。等于采样频率除以帧距。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：古剑奇谭二周目随记——十八、魂之彼岸/忘川蒿里

后一篇：2.14

新浪BLOG意见反馈留言板　欢迎批评指正