音频制作与转换—PCM编码
(2012-06-27 17:29:10)
标签:
音频杂谈 |
在音频制作、转换、播放、传输中,我们常遇到PCM这种音频编码格式,以及与其相关的许多专业术语。对于这些术语,非专业人士很难透彻的理解,其实也不需要特别精通。本文力图以非专业的语言来描述PCM及其常用的参数。
绝对不是权威解释,只是个人理解。
许多人在制作、转换音频文件格式是,常需要决定是否选择PCM编码,并对其参数如何设置。有时候常遇到自己的播放设备明明支持PCM编码,可却不能播放一些PCM编码的音频文件。这是因为同样的PCM编码的音频文件,其参数设置也是多种多样的,没有一个设备能全能支持(也没有必要)各种参数的PCM编码的音频文件。
因此,特建议如下:
1、如果设备允许,当录制音频时,最好选择PCM编码,一般按照PCM的主要参数标准设置参数就完全可以满足需要了。对于非专业人士来讲,超高参数值的设置没有实际价值,反而会增大录制后的音频文件。
2、当将CD音频转换为其它音频格式时,最好选择PCM编码,并按照PCM的主要参数标准(其与CD是相同的)设置参数。超过CD参数值的设置没有实际价值,反而会增大转换后的音频文件。
3、将PCM作为源音频文件的保存格式,是明智之举。因为以后可以将这种无损音频文件,根据需要转换为各种有损编码的音频文件。从这一点上讲,只是想将有损编码的音频文件转换为PCM格式音频文件保存,没有实际意义。其最多能最大限度地接近原有音频文件的质量,不能提高质量。因为巧妇难为无米之炊。
4、要按照播放、传输等设备能够支持的PCM编码类型和参数进行选择和设置。
PCM(Pulse Code Modulation,脉冲编码调制)
在计算机应用中,能够达到最高保真水平的就是PCM编码,被称为无损编码,能最大程度地接近源声音。其被广泛用于音乐素材保存及音乐欣赏。
PCM常被用于数码电信系统上,也是电脑和CD中的标准形式。由于音频文件太大,PCM并不流行于诸如DVD或DVR中(DVD格式虽然支持PCM,不过很少使用),不过,许多蓝光光盘在使用PCM作音频编码。
PCM有E1和T1两个标准。中国采用的是欧洲的E1标准,速率是2.048Mbit/s(T1的速率是1.544Mbit/s)。
一、PCM 编码过程
采样——量化——编码
二、PCM的主要参数标准
采样频率:44.1kHz
采样精度:16 bit
声道数:双声道(立体声)
由此可计算出如下参数:
综合采样率:44.1(kHz)╳16(bit)╳2(声道)=1411.2(kbps)
未压缩码率:44.1(kHz)╳16(bit)╳2(声道)/8 =176.4(kBps)
采样频率目前已经发展到192(kHz)。
采样精度从14、16、18、20、24(bit)。
三、 PCM的类型
除了标准的PCM编码外,目前最常用的要数ADPCM(自适应差分脉冲编码调制)了。ADPCM为有损压缩,其音频文件远小于PCM。
以PCM、ADPCM、DPCM为基础,派生出各种类型的编码格式。其有的是表示编码方法,有的是表示适用对象。没有必要(也不可能)详细了解全部类型。在音频制作或转换中,只要了解使用设备需要什么类型就可以了。
扩展
采样
采样的过程就是采集声音信号某点的频率值和能量值。
采样点越多。采得的信息就越丰富,还原后就越接近源声音的质量。
采样的多少主要由采样频率、采样精度这两个参数表示。
一、采样频率(Hz、kHz)
采样频率一般设置为44.1(44)kHz(标准的音频采样频率)就完全可以满足高质量音频收听的需要。
采样频率以Hz(赫兹)或kHz(千赫兹)为单位,表示每秒钟采样的次数。
著名的奈奎斯特定理(Nyquist Theorem)指出,如果要保存原始信号的所有信息,必须用不小于原始信号2倍的频率进行采样。也就是说,对声波每次振动,必须有2个点的采样。
人耳所能听到的声音频率是20Hz到20 kHz之间,20 kHz以上的音频人耳是听不到的。所以根据人耳的频响特征,常选取其20 kHz频率的2倍多一点的44.1kHz作为标准的采样频率。
采样频率一般为40—50 kHz就能完全满足高质量收听的需要。高于48 kHz的采样频率人耳已无法辨别出来了,所以没有多少实用价值。
常用的采样率有
:
11.025 kHz(11 kHz),播放小段声音的最低标准,是CD音质的四分之一。
22.050 kHz(22 kHz),可以达到CD音质的一半,只能达到FM广播的声音品质,目前被大多数网站选用。
44.1 kHz(44 kHz),标准的CD音质,可以达到很好的听觉效果。
48 kHz,可以更加精确一些。主要适用于对声音的录制采样。对抓轨(CD光盘音乐文件转换)或转换软件来说,保持44.1 kHz采样频率才是最佳音质的保证之一。
二、采样精度(bit)
采样精度一般设置为16位(标准的音频采样精度)就完全可以满足高质量音频收听的需要。
采样光有次数多少是不够的,还必须采得该频率点的能量值(信号强度),其用采样精度(位数)来表示。
采样精度以bit(比特、位)为单位。表示每秒钟采得能量值的精度。
例如:8位代表2的8次方,为256个精度单位,16为代表2的16次方,为64K个精度单位。
采样位数客观地反映了对输入声音信号描述的准确程度。位数越大,采集并记录的精度越高,信息量越大,越接近源声音的质量,即记录越准确,失真越小。
16位的采样精度对于电脑多媒体音频而言已经绰绰有余了。超高的采样位数没有什么实际意义。实际上目前流行的都是16位的,大部分也不提供超高位数的设置选项 乐器话筒。有些号称可以达到32位,也不过是需要使用特定的软件对16位进行加速。
三、综合采样率(bps、kbps)
综合采样率越高,采得的信息就越丰富,还原后就越接近源声音的质量。
综合采样率以bps(比特)、kbps(千比特)位单位,表示每秒钟采样的总比信息量。
综合采样率不仅包含采样频率、采样精度指标,还包含了声道指标。
综合采样率=采样频率╳采样精度╳通道数
例如:标准的音频采样率=16(bit)╳44.1(kHz)╳2(双通道)=1411.2(kbps)
综合采样率都是由采样精度、采样频率、声道数量决定的,一般情况下都无需设置综合采样率。大部分情况下,也不提供这个选项。
量化
量化的过程就是将声音模拟信号转换为十进位制数字信号的过程。
采样所得的信号仍然是不连贯(离散)的模拟信号。为了实现以数字码表示采样值,必须采用“四舍五入”的方法把采样值分级“取整“,使采样值由无限多个值变为有限个值。量化后的采样信号就转化为按采样时序排列的一串十进制数字码流,即十进制数字信号。
量化的过程是由编码器按照统一标准进行的,一般无需(也不提供选项)人工设置。
编码
把量化的采样信号由十进位制的数字信号转换为二进位制数字记录下来,并进行压缩的过程称为编码。
只有经过编码才是能够存储、传输、还原(解码)的音频数字信号。编码的过程又是有损或无损压缩的过程。在满足一定需要的收听质量的前提下,尽量压缩以减小音频文件和数据量,是人们追求的目标。因为文件和
数据量越大,对存储设备、传输设备、解码设备、播放设备等的要求越高。所以,各种不同的编码格式应运而生。
编码的结果,常用码率(数据速率、比特率、位速率)来表示。
码率(数据速率、比特率、位速率)(bps、kbps、Bps、kBps)
用编码(压缩)后的比特数(位数或字节数)表示音频文件制作每秒钟具有的数据量。同时还表示音频文件解码,播放、传输等需要或可处理的数据量。有时还用于计算音频文件的大小。
在相同的综合采样率的情况下,码率越高,音频质量越接近综合采样的质量。码率越高,音频文件越大。要求解码器、声卡、网络传输等具有更高的处理能力。
从这一点上讲,低质量的综合采样率,采用高码率转换并不能使音频质量超过采样质量。反而会无效地加大音频文件,加大音频文件无效内容。因此,根据综合采样数量确定合理的码率,是一个应该掌握的技术。
为了解决高码率面临的问题,在保持可接受质量损失的前提下,采用不同的压缩技术,降低码率,是人们追求的目标。因为只有降低码率,才能减少存储空间(例如:在光盘上录入更多文件),实现网络流畅传输和在线播放等。
码率一般有两种表示方法:
1、用位数表示。单位是(bps、kbps)。此中方法常用于网络速度,例如:512K,表示每秒钟可传输的位数。
例如:标准的音频采样率=16(bit)╳44.1(kHz)╳2(双通道)=1411.2(kbps),如果用位数表示,就是1411.2K了。
2、用字节数表示。单位是(Bps、kBps)。此是普遍采用的方法。当采用大写B时,这表示的是字节数,不过许多流行的表示方法并不采用大写,这就需要根据其提供的数据来判断了。
字节数=综合采样率/8(因为8个位=1个字节,即1Bps=8bps)
例如:标准的音频码率=16(bit)╳44.1(kHz)╳2(双通道)/8=1411.2(kbps,综合采样率)/8=176.4(kBps),
192K(码率)=16(bit)╳48(kHz)╳2(双通道)/8=1536(kbps,综合采样率)/8=192(kBps),
用位数表示的网络速度,除以8,就是字节数。例如:512K/8=64K专业声卡。
从计算可知,码率设置等于或略高于综合采样率是一个合理的选择,超高没有实际价值。
许多音频制作、转换软件提供了多种码率选择,其并不是绝对与上述计算公式所得一样的,因为其采用的编码格式的压缩比、压缩方式不同。
一般情况下,码率达到256K已经足够了,目前最高的可达320K。MP3常用的码率为128K。
音频文件大小的计算
为什么要计算音频文件的大小。因为常要将音频文件刻录到容量有限的光盘中,有些网站限制上传文件的大小,有些播放设备存储能力有限等,这都需要在音频制作时,事先根据限制来计算制作的音频文件的大小,从而选择不同的码率。
音频文件的大小(字节数)=码率╳秒数。
例如:制作一个长度为5分钟(300秒),码率为128(kBps,字节)的音频,
其文件大小为:128(kBps)╳300(秒)=38400(kBps,字节)=38.4(MBps)。
一张容量为700MB的光盘,最多能存储18个同样大小的音频文件。
ADPCM(Adaptive Differential Pulse Code Modulation,自适应脉冲编码调制)
ADPCM是基于PCM的一种性能比较好的有损压缩编码方式。其综合了APCM的自适应特性和DPCM的差分特性。
ADPCM将每次采样的16位数据以4位存储, 所以压缩比1:4。从而使传输带宽减少一半,提高了信道的利用效率,并且还可以使脉码调制系统的通信质量得到提高。
保存声音的数据文件后缀名为.AUD 的大多用采用的是ADPCM编码。
一、APCM(Adaptive Pulse Code Modulation,自适应脉冲编码调制)
APCM是根据信号幅度大小来改变量化阶大小的一种有损压缩编码技术。APCM音频文件远小于PCM。
即使用小的量化阶去编码小的差值,使用大的量化阶去编码大的差值。使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。ADPCM记录的量化值不是每个采样点的幅值,而是该点的幅值与前一个采样点幅值之差。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变midi键盘,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。
二、 DPCM(Differential Pulse Code Modulation,差分脉冲编码调制)
DPCM是一种有损压缩编码技术。DPCM音频文件远小于PCM。
在PCM中,对每个样本独立进行编码。相邻的样本之间呈现明显的相关性(相似性)。DPCM对相邻样本进行比较。只对相邻样本间不同的值进行编码,不再对相似的值进行编码。如果没有差异,就不再重复编码。
前一篇:[转载]常见音频格式对比
后一篇:浅谈常见的音频配件、附件