音频压缩编码格式 - 行业标准（家庭电子）－全球企业门户

加入收藏

免费注册

今天是：2025年8月3日星期日您现在位于：首页 → 技术 → 行业标准（家庭电子）

音频压缩编码格式

2007/2/1 12:01:22 产通学院，365PR NET

音频压缩技术指的是对原始数字音频信号运用适当的数字信号处理技术，因此也称为压缩编码。它必须具有相应的逆变换，称为解压缩或解码。数字音频压缩技术在各种音乐供应和传送的体系中，扮演着一个重要的角色，其影响范围涵盖包括如CD、SACD、DVD、DVD-Audio、MP3-CD等媒体，或是包括如网络、有线电视、卫星等能提高储存和频带效率的网络媒体。在不同的产品领域中，我们发现不同的音频压缩技术已演变为流行，甚至是強制性的技术需求。随着音频市场不断地迅速发展，不仅涌现出各种标准与新的音频功能，而且业界也在持续地改进产品的音质。市场、消费者、以及技术在持续发展，我们已进入了新的数字音频时代。

一般来讲，可以将音频压缩技术分为无损（lossless）压缩及有损（lossy）压缩两大类，对于无损编码，一般着重讨论其压缩率，而对于有损压缩除了考虑压缩率外还要考虑其品质。按照压缩方案的不同，又可将其划分为时域压缩、变换压缩、子带压缩，以及多种技术相互融合的混合压缩等等。各种不同的压缩技术，其算法的复杂程度（包括时间复杂度和空间复杂度）、音频质量、算法效率（即压缩率），以及编解码延时等都有很大的不同。为了让读者更加容易接受，下文对于具体的压缩技术将不对其和具体分类对号入座，而是采用我们比较熟悉的名称。

1、PCM编码

PCM是1937年由法国工程师Alec Reeres提出来的。Bell实验室于1946年实现了第一台PCM数字电话机。20世纪70年代后期，超大规模集成电路的PCM编码器、解码器的出现，使PCM在光纤通信、数字微波通信、卫星通信中获得了广泛的应用。因此PCM已经成为数字通信中一个十分基础的问题。

PCM编码的最大的优点就是音质好。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。PCM主要包括采样（Sampling）、量化（Quantization）和编码（Coding）三个过程。采样就是把模拟信号转换成离散时间的采样信号；很显然，在一秒中内抽取的点越多，获取得频率信息更丰富。按照Nyquist采样定理，为了复原波形，在声波信号的一次振动中，必须有2个点或以上的采样，换作频域上的理解就是采样频率必须大于或等于信号频率的两倍。人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，采样率则至少是40kHz。我们常见的CD，采样率为44.1kHz。

不过，光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。采样信号只是表示原始模拟信号在离散时间上的某个点的值而已，量化就是把这些采样信号转换成离散幅度的数字信号。量化电平数为2的整次幂，所谓的采样大小就是说要用多少bit的二进制数对采样信号值进行标识。例如要转换一系列的采样信号需要23个电平等级,则采样大小是3bit。我们常见的CD为16bit的采样大小，可表示216（等于65536）个不同的采样值。采样率和采样大小的值越大，记录的波形更接近原始信号。而编码过程就是对量化后的信号进行编码而形成一个二进制码组来输出。举例来说，假如对一个信号采样8次，只采用2bit的采样大小则我们只能表示4种不同的采样值，因为2bit的采样大小只是包括了00、01、10和11这四个二进制码组，若每次的采样值都不一样，则我们必须放弃其中的4个采样值。如果采样大小是3bit，则包括了000、001、010、011、100、101、110、111这八个二进制码组，这样就可以表示8种不同的采样值。

相对自然界的信号，音频编码最多只能做到无限接近，任何数字音频编码方案都是有损编码（Lossy Coding），因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码（Lossless Coding），因为PCM代表了数字音频中最佳的保真水准，但并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。

2、WAVE

WAV是微软提供的音频格式，由于Windows本身的影响力，这个格式已经成为了事实上的通用音频格式。WAV文件格式，符合 RIFF（Resource Interchange File Format）规范。所有的WAV都有一个文件头，这个文件头音频流的编码参数。WAV可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。在Windows平台上通过ACM（Audio Compression Manager）结构及相应的CODEC(编码解码器)，可以在WAV文件中存放超过20种的压缩格式。只要有软件支持，你甚至可以在WAV格式里面存放图像，所以MP3编码同样也可以运用在WAV中。只要安装好了相应的解码器，就可以欣赏这些WAV了。

在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式。它的用途是存放音频数据并用作进一步的处理，而不是像mp3那样用于聆听。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如mp3转换成WMA。

3、mp3

mp3是1993年由Fraunhofer-IIS研究院和Thomson公司的研究成果。它是MPEG(Moving Picture Experts Group) Audio Layer-3的简称，是MPEG1的衍生编码方案。mp3是第一个实用的有损音频压缩编码，虽然几大音乐商极其反感这种开放的格式，但也无法阻止这种音频压缩的格式的生存与流传。各种与mp3相关的软件产品层出不穷，现在各种支持mp3格式的硬件产品也是随处可见了。

在mp3出现之前，一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。mp3可以做到12:1的惊人压缩比，这使得mp3迅速地流行起来。mp3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术，也就是利用了人耳的特性，削减音乐中人耳听不到的成分，同时尝试尽可能地维持原来的声音质量。

mp3编码技术的发布之初其实是非常不完善的，由于缺乏对声音和人耳听觉的研究，早期的mp3编码器几乎全是以粗暴方式来编码，音质破坏严重。随着新技术的不断导入，mp3编码技术一次一次的被改良，其中有2次重大技术上的改进。

第一次改进是VBR（Variant Bitrate 可变位率）的引入。我们知道，衡量mp3文件的压缩比例通常使用位率（Bit Rate）来表示。通常位率越高，压缩文件就越大，但音乐中获得保留的成分就越多，音质就越好。由于位率与文件大小音质的关系，所以后来出现了VBR方式编码的mp3。VBR编码的特点是可根据编码的内容动态地选择合适的位率，因此编码的结果是在保证了音质的同时又照顾了文件的大小，结果大受欢迎。同时，mp3格式的文件有一个有意思的特征，就是可以边读边放，这也符合流媒体的最基本特征，也就是说播放器可以不用预读文件的全部内容就可以播放，读到哪里播放到哪里，即使是文件有部分损坏。VBR技术的优越性是显而易见的，但要运用确实是一件难事，因为这要求编码器知道如何为每一段分配位率，这对没有波形分析的编码器而言，这种技术如同虚设。正是如此，VBR技术并没有一出现就显得光彩夺目。

第二次改进就是屏蔽效应的引入。专家们通过长期的声学研究，发现人耳存在遮蔽效应。声音信号实际是一种能量波，在空气或其他媒介中传播，人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小，我们称它为响度，表示响度这种能量的单位为分贝（dB）。即使是同样响度的声音，人们也会因为它们频率不同而感觉到声音大小不同。人耳最容易听到的就是4kHz的频率，不管频率是否增高或降低，即使是响度在相同的情况下，大家都会觉得声音在变小。但响度降到一定程度时，人耳就听不到了，每一个频率都有着不同的值。

从人耳听觉等效曲线图中，我们可以看到这条曲线基本成一个V字型，当频率超过15kHz时，人耳会感觉到声音很小，很多听觉不是很好的人，根本就听不到20kHz的频率，不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时，响度较小的那个也会被忽略，例如：在白天，由于周围噪声源多，我们很难听到电脑主机散热风扇的声音，但晚上却听得很清楚。根据这种原理，编码器可以过滤掉很多听不到的声音，以简化信息复杂度，增加压缩比，而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽，如果A处于B为中心的遮蔽范围内，遮蔽会更明显，这个范围叫临界带宽。每一种频率的临界带宽都不一样，频率越高的临界带宽越宽。

根据这种效应，专家们设计出人耳听觉心理模型，这个模型被导入到mp3编码中后，导致了一场翻天覆地的音质革命，mp3编码技术一直背负着音质差的恶名，但这个恶名现在已经逐渐被洗脱。到了此时，mp3削减音乐中人耳听不到的成分，同时尝试尽可能地维持原来的声音质量。一直被埋没的VBR技术光彩四射，配合心理模型的运用便现实出强大的诱惑力与杀伤力。在中高位率下，编码得当的mp3要比WMA优秀很多，可以非常接近CD音质，在不太好的硬件设备支持下，没有多少人可以区分两者的差异。

目前属于开放源代码并且免费的编码器是LAME。这个工具是公认的压缩音质最好的mp3压缩工具。另外，几乎所有的音频编辑工具都支持打开和保存mp3文件。到了现在，许多新一代的编码技术都已经能在相同的位率下提供比mp3优越得多的音质。应该说，mp3确实显现出疲态了。不过由于mp3的影响力实在是太大了，支持mp3的软件多如牛毛，更别提众多支持mp3的硬件播放器了。总之，mp3依然是世界上最流行的音频压缩技术，要它真正退出舞台相信还有好长一段时间。

4、mp3PRO

Thomson公司、Fraunhofer-IIS连同Coding Technologies于2001年6月发布了一种名为mp3PRO的音乐格式。mp3PRO是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于采用了SBR（Spectral Band Replication，频带复制）技术，这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。

SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码，它在原来mp3技术的基础上专门针对原来mp3技术中损失了的音频细节进行独立编码处理并捆绑在原来的mp3数据上，在播放的时候通过再合成而达到良好的音质效果。这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平。Coding Technologies推出了最新的MPEG-4 AACPlus，通过将SBR技术应用在AAC（Advanced Audio Codec，先进音频编解码）技术中而获得更卓越的音质。Coding Technologies表示SBR将会成为MPEG-4的核心技术。但由于技术专利费用的问题以及其他技术提供商（例如微软）的竞争，mp3PRO并没有得到很大的流行。由于得不到支持，mp3PRO这个优良的音频技术到底何去何从，谁也不敢肯定。

5、RA 和RAM

随着互联网的发展，Real Networks公司发明的Real Media出现了。RA、RMA这两个文件类型就是RealAudio格式。RealAudio可以根据听众的带宽来控制自己的位率，就算是在非常低的带宽下也可以提供足够好的音质让用户在线聆听。

网络流媒体的道理其实非常简单，简单地说就是将原来连续的音频分割成一个一个带有顺序标记的小数据包，将这些小数据包通过网络进行传递，在接收的时候再将这些数据包按顺序组织起来播放。如果网络质量太差，有些数据包收不到或者延缓了到达，它就跳过这些数据包不播放，以保证用户在聆听的内容是基本连续的。由于Real Media是从极差的网络环境下发展过来的，所以Real Media的音质并不怎样，包括在高位率的时候，甚至差于mp3。

后来Real Networks通过与SONY公司合作，利用SONY的ATRAC技术（也就是MD的压缩技术）实现高位率的高保真压缩。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。由于Real Media的用途是在线聆听，并不适于编辑，所以相应的处理软件并不多。一些主流软件可以支持Real Media的读/写，可以实现直接剪辑的软件是Real Networks自己提供的捆绑在Real Media Encoder编码器中的Real Media Editor，但功能非常有限，这一点与现在的Windows Media相比就差得远了。

6、WMA

前文提及的WMA是Windows Media Audio编码后的文件格式。在意识到网络流媒体之于互联网的重要性之后，微软很快就推出了Windows Media与Real Media相抗衡，同时开始对其他音频压缩技术一律不提供直接支持。最初版本的Windows Media在音质方面并没有什么优势，不过最新的Windows Media 9携带了大量的新特性并在Windows Media Player的配合下已经是不可同日而语。特别在音频方面，微软是唯一能提供全部种类音频压缩技术（无损、有损、语音）的解决方案。微软声称，在只有64kbps的速率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和次数甚至是播放的主机等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播。WMA凭着本身的优秀技术特征加上微软的大力推广，这种格式被越来越多的人所接受。

Windows Media是一种网络流媒体技术，本质上跟Real Media是相同的。但Real Media是有限开放的技术，例如RTSP（Real Time Stream Protocol，实时流协议）网络传输协议是提交到网络工作组RFC网络协议集的其中一个，而Windows Media则没有公开任何技术细节，据称是为了更好地进行版权保护，因此要完全封闭，还创造出一种名为MMS（Multi-Media Stream多媒体流）的传输协议。目前Windows Media还是处于推广期，播放器和编码器可以免费下载，服务器端捆绑在Windows服务器版中，不另外收费。而且由于微软的影响力，支持Windows Media的软件非常多。虽然它也是用于聆听用途，不能编辑，但几乎所有的Windows平台的音频编辑工具都对它提供了读/写支持，至于第三方播放器更是无一例外了，连Real Player都支持其播放。通过微软自己推出的Windows Media File Editor可以实现简单的直接剪辑。微软推出的Windows XP Media Center版本，通过在Windows XP中捆绑Windows Media 9技术以及相关娱乐媒体软件来加强Windows作为家庭娱乐中心的作用。如果微软继续保持其在操作系统特别是桌面操作系统的垄断地位的话，Windows Media的未来肯定是一片光辉。

7、OGG

2002年7月，网络上出现了一种号称MP3杀手的音频编码，叫Ogg Vorbis。Vorbis 是这种音频压缩机制的名字，而Ogg则是这个多媒体开发项目的名称，它将涉及音/视频等方面的编码开发。

在压缩技术上，Ogg Vorbis除了支持VBR还支持ABR（平均位率）方式进行编码。 Vorbis是高质量的音频编码方案，可以在相对低的数据率下实现比MP3更好的音质。Vorbis文件的设计格式是非常灵活的，可以被分成小块并以样本粒度（granularity）进行编辑。Vorbis还具有位率缩放功能，可以不用重新编码便可调节文件的位率。它的最大特点是在文件格式已经固定下来后还能对音质进行明显的调节和新算法。现在创建的OGG文件可以在未来的任何播放器上播放，因此，这种文件格式可以不断地进行大小和音质的改良，而不影响旧有的编码器或播放器。Vorbis同时可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多现场感。而且，OGG源码是完全开放与免费的且没有专利限制的。Ogg Vorbis取得的最大成就是获得英国BBC广播公司的认可，使用Ogg Vorbis音频流在线播放节目。

8、Dolby技术

a) Dolby Digital

Dolby Digital是杜比实验室最闻名的数字技术，是一种利用了人类的听觉特性，通过对高质量多声道数字音频信号压缩进行有效的存储与传输的音频编解码工艺。Dolby Digital有时也被称为杜比AC-3，它是Dolby Digital技术的基础。该技术通过不同介质提供多声道环绕声。Dolby Digital技术于1992年首次用于电影院中，是目前唯一的全球性多声道音频标准和ATSC数字电视及SCTE数字有线电视的音频标准。

此外，Dolby Digital技术已被确认为DVB的音频传输标准。目前许多欧洲的数字机顶盒均可对Dolby Digital数据流进行处理。

事实上全世界所售出的DVD播放机都装有进行Dolby Digital解码的电路。

Dolby Digital声能够提供从单声道到5.1声道环绕声的各种制式的声音。所谓5.1声道环绕声包括五个分离的全频带（20Hz-20k Hz）音频信号-左，中，右，左环绕，右环绕声道加上第六个分离的低频（20-120 Hz）效果声道，通常称作LFE(低频效果)声道。而其所占用的存储空间比CD上一路线性PCM编码的声道所占用的空间还要少。基于对人耳听觉的研究，Dolby Digital音频技术中的先进算法使存储或者传输数字音频信号时使用更少数据成为可能。在5.1声道的条件下，可将码率压缩至384kbps，压缩比约为10：1。Dolby AC-3最初是针对影院系统开发的，但目前已成为应用最为广泛的环绕声压缩技术之一。

b) Dolby E

Dolby E是一种专业音频编码技术，是为Dolby Digital编解码工艺无法应用的广播传送系统而专门设计的高品质8声道音频编解码技术。Dolby E可以通过一对AES/EBU或者一对数字VTR音轨，给后期制作和发行提供多达8个声道的广播级质量的音频信息。Dolby E可通过一个AES-3数据对进行传送，或被录制在数字视频带的两个音频轨上，并创造了一个标准的声音与画面同步切换制式。另外，杜比E的优点还在于经过它编码的信息可以经过多次编解码转换而没有可察觉的音质降低。由于Dolby E的帧数与其相伴的视频帧数相匹配，可以做到无噪声地对磁带上节目进行插入或组合编辑，以及对节目进行音频随视频的剪切制作。Dolby E编码与解码能够准确地做到与视频帧一致，从而使音频/视频同步简化，在Dolby E位流内，Dolby Digital的元数据（Metadata）也可被方便的进行传输。

→ 『关闭窗口』

dav
[ → 我要发表 ]

上篇文章：电磁（(Electromagnetic）应用技术介绍
下篇文章：DTV波形监视器全数字处理之优点

→ 主题所属分类： 行业标准 → 家庭电子