2.7 数字音频
2.7.1 数字音频概述
数字化记录声音和画面的技术和现代科技紧密相关,但它的原理却要追溯到古老的机械运算装置。一切都基于一个简单的原理:任何运算都可以使用两个数字“1”和“0”来完成。这些原理也使得从古老的运算机械到今天快如闪电的计算机都使用同样的运算方法,而今天计算机的运算能力都源于“芯片”。
那些电子硅芯片的运算能力和速度自1970年以来突飞猛进,但直到最近几年,它们的存储能力和速度才满足了后期声画制作的需要。
无论是声音还是图像,所谓的数字化革命都依赖于称为模拟—数字转换器的设备(也称为A/D转换器或者ADC),这是一个将输入的模拟信号转换成数字信号输出的装置,其工作原理为,首先将声音信号分解成两个独立的信息:一个记录声音信号的位置,即每经过一段特定的时间就记录一次。另一个则记录时刻信号的强度,即在该时刻声音有多响。这种对位置和幅度的测量每秒进行数万次。这个时间参数,也就是声音被取样的速度,叫作采样频率,记录下信号幅度的过程称为量化。
数字信号工作时只可能取两个值:开或关,这使得记录下的信息非正即负,系统中引入的噪声可以完全忽略不计,因为它们不会影响记录下来的那两个值。基础的数字信息单元是“位”(二进制元),其状态只可能是“0”或者“1”,或者对于工程师来说是“低”和“高”,这两种状态可以用很多种方式表示,如电压值或者光盘上深度不一的凹坑(DVD就是这样记录信息的)。
数字信息可以借助电子线路记录到磁带和光盘上,然后毫无损失地还原,但必须和最初使用的采样频率一致。即使频率只是有一点小小的变化,系统也会工作不正常——就会产生同步的“时钟错误”,可能会导致信号无法还原。
除非信号过载,数字记录声音(和画面)是无失真的。一旦信号过载就会造成严重的失真,甚至是无声。实际上,数字录音最大的优势在于不断复制的过程中,音质不会有任何损失,而这一点则恰恰是后期制作过程中最理想的需求。
2.7.2 数字音频的质量参数
(1)采样率
录音比特数据流的采样率直接影响了音频数字化过程中对所录制声音的解析力,就如同捕获动态图像一样,如果你在移动它的过程中进行更多的采样,你就能更准确地去描述这个图像。一方面,如果你采样的数量过少,那么它的解析力就会不合标准甚至导致损耗。另一方面,采样率过高会导致声音文件频率响应超过人耳所能察觉到的频响范围,造成文件占用过大的硬盘空间。除了采用业界标准的采样率外,你还要自己决定哪一种采样率最符合你的制作要求。虽然还有一些其他的采样率标准存在,但是以下这些是最常应用在专业工作室、中小型工作室和一般音频节目制作的标准:
①32kHz——这种采样率常用于广播电台通过卫星来传送和接收数字信号。由于它的总带宽只有15kHz,对数据存储容量的需求也不高,因此有些设备也用它来节省内存。虽然这种采样率一般不用于专业领域,但是,如果使用高质量的AD转换器的话,32kHz所能达到的声音质量还是能够给人以惊喜。
②44.1kHz——长期以来专业音频及消费产品的标准采样率,是CD唱片标准规定的采样率。由于带宽可以达到20kHz,44.1kHz的采样率被认为是专业音频里的最低采样率。如果有高质量的A/D转换器,这种采样率能够无损地录制声音并且占用存储空间最少。
③48kHz——广泛应用于电视节目的后期制作,这种采样率标准很早就开始在专业音频应用中使用(尤其对于硬件数字音频设备而言)。
④96kHz——随着24bit录音能力的实现,更高采样率和量化精度的录音变为可行,能够以96kHz甚至更高的采样率进行编码(如96kHz/24bit)。同时,96kHz也是DVD-audio产品所支持的采样率。
⑤192kHz——这同样也是DVD-audio产品所支持的采样率。
(2)比特率-量化精度
数字声音文件的比特率直接影响了编码到比特数据流里的量化电平数量。因此,比特率(或者叫作比特深度)直接关系到在对一个采样点的电平进行编码时所能达到的精确程度以及信号噪声比的大小(这直接影响到所录制信号的整体动态范围)。量化精度是录音作品动态范围的重要指标,数字录音的编码方式是线性脉冲编码调制技术(LPCM)。在这个系统中,每增加一个比特的量化数,就可以提升6dB的信噪比。
虽然还有其他的比特率标准的存在,但是以下这些是最常应用在专业工作室、中小型工作室和一般音频节目制作的标准:
①16bit——同44.1kHz声音采样率一样,16bit是专业音频和消费产品的标准,同时也是CD唱片的量化精度标准(在理论上提供97.8dB的动态范围)。16bit被认为是专业音频产品领域里最低的比特率标准。同样,如果有高质量的A/D转换器,这种比特率能够无损地录制声音并且占用存储空间最少。
②20bit——在24bit出现之前,20bit被认为是高质量量化精度的标准。虽然现在已经不太常用,但还是在一些高解析度的录音中有所使用(理论上提供121.8dB的动态范围)。
③24bit——理论上提供145.8dB的动态范围,这种比特率标准被应用于专业音频、高解析度及DVD-audio领域。
2.7.3 数字音频的文件格式
不同的记录文件格式往往采用了不同的压缩编码算法,我们可以通过比较各种文件格式的特点,同时考虑到各种音频播放时不同的应用范畴,从而作出不同的选择。基于Windows操作平台的常见音频文件格式如下:
(1)Broadcast wave(.wav)
在声音内容方面,Broadcast wave文件与常规wave文件一样。然而不同的是,其提供的附加信息文本串也可通过标准化数据格式嵌入到文件中
(2)Wave64(.w64)
该格式由Sonic Foundry公司开发(如今已经归属到Sony麾下)。在音质方面,Wave64格式与wave格式相同,不同的是它能够支持64bit(而wave只能支持32bit)。因此Wave64的文件比标准wav文件大很多,也适合于长时间的录音(比如环绕声文件或超过2GB的文件)。
(3)WAV
WAV格式是微软公司开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式,被Windows平台及其应用程序广泛支持,也成了PC世界数字化声音的代名词。WAV格式支持许多压缩算法,采用PCM编码、AD-PCM编码等生成的数字音频数据都以WAVE的文件格式存储,以“.WAV”作为文件扩展名。WAVE文件由三部分组成:文件头(标明是WAVE文件、文件结构和数据的总字节数)、数字化参数(如采样率、声道数、编码算法等),最后是实际波形数据。
CD激光唱盘中包含的就是WAVE格式的波形数据,只是不存成“.WAV”文件而已。但是通过一些抓轨软件,可以从CD直接得到WAV格式的文件,CD-DA音质信号每分钟需10MB以上的存储容量。
这种文件的特点是易于生成和编辑,由于无压缩的音频数据量大,对数据的存储和传输都造成压力,所以不适合在网络上播放。
(4)AIFF(.aif或.snd)
该格式是由苹果公司推出的标准声音文件格式,它支持单声道和立体声8bit或16bit的量化精度以及各种采样率。就像broadcast wave格式一样,AIFF也支持将文本串嵌入文件内部。
(5)Sound Designer I和II(.sd1及.sd2)
Sound Designer是Digidesign公司推出的音频文件格式。SDⅠ最早于1985年发布,至今还能够在很多CD-ROM和音频光盘中看到,主要用来存储16bit、单声道、短时间(一般只有几秒)的采样。在最新的版本里面,SDⅡ能够编码不同采样率下16bit或24bit量化精度的声音文件,而不受时长的限制。
(6)Avanced Authoring Format(AAF)
是一种多媒体文件格式,用于在不同系统和应用程序之间跨平台交换数字媒体数据及元数据。该格式由顶级媒体软件公司设计,它能够帮助不同类型的媒体创作者在不同应用程序之间交换工程文件,且不会丢失诸如淡入淡出、自动化及效果处理信息等细节元数据。
(7)Open Media Framework Interchange(OMFI)
是一个不依赖于任何平台的工程文件格式,用于在不同数字音频工作站应用程序之间传输数字数据,以OMF扩展名储存。OMF(俗称)文件有两种保存方式:①“将所有文件输出为一个文件”,就是能够将所有的声音文件和工程文件参数信息储存在一个文件里(该文件会占用较大的硬盘空间)。②“输出文件参考信息”,OMF文件不包有声音文件本身,而是包含了工程文件中的分区、编辑和混音设置信息,以及效果设置(与接收工作站的可用插件和效果分配能力有关)和I/O设置信息。第二类的OMF文件相对来讲占用硬盘空间较小,然而,原始声音文件必须要转移到同一个工程文件内。
(8)AES31
AES31标准是由美国音频工程师协会(AES)提出的一个开放式文件交换格式,用来解决软件与硬件系统之间格式不兼容的问题。被传输的文件会保留音频块的位置、混音设置及淡入淡出等信息。AES31利用微软的FAT32文件系统,以broadcast wave作为默认的声音文件格式。这意味着AES31文件可以在任何一个支持AES31的数字音频工作站中调用,无论硬件或软件是何种类型,只要音频工作站能够读取FAT32文件系统、broadcast wave或常规wave文件就可以。
(9)MP3
MP3的全称是Moving Picture Experts Group Audio Layer III。简单地说,MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer3,所以人们把它简称为MP3。MP3是利用MPEG Audio Layer3技术,将音乐以1∶10甚至1∶12的压缩率,压缩成容量较小的文件,当然这是一种有损压缩,但是人耳却基本不能分辨出失真来,音质几乎完全达到了CD的标准。按照这种算法,10张CD-DA的内容,可以压缩到一张CD-ROM中,而且视听效果相当好。
MP3文件是采用MP3算法压缩生成的数字音频数据文件,以“.MP3”为文件后缀。使用MP3播放器对MP3文件进行实时的解压缩(解码),无论是软件播放器还是随身听,高品质的MP3音乐就播放出来了。每分钟CD音质音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3~4MB。正是因为MP3体积小、音质高的特点,使得MP3格式几乎称为网上音乐的代名词。
(10)MP3Pro
MP3Pro是MP3编码格式的升级版本。MP3Pro是由瑞典Coding科技公司开发的,在保持相同的音质条件下,可以把声音文件的文件容量压缩到原有MP3格式的一半大小,而且可以在基本不改文件大小的情况下改善原先的MP3音乐音质。当制作MP3Pro文件时,编码器将音频分为两部分。一部分是将音频数据中的低频段部分分离出来,通过传统的MP3技术而编码得出的正常MP3音频流。用这个方法,可以使MP3编码器专注于低频段信号从而获得更好的压缩质量,而且原来的MP3播放器也可播放MP3Pro文件。另一部分则是将分离出来的高频段信号进行编码并嵌入到MP3流中,传统的MP3播放器会将其忽略掉,而新的MP3Pro播放器,则可从中还原出高频信号,并将两者进行组合,得到高质量的全带宽的声音。
经过MP3Pro压缩的文件,扩展名仍旧是“.MP3”,可以在老的MP3播放器上播放。老的MP3文件可以在新的MP3Pro播放器上进行播放,它能够在用较低的比特率压缩音频文件的情况下,最大限度地保持压缩前的音质。
(11)MP4
如同MP3一样,MPEG-4(MP4)编码,如今也已大量应用在网络数据流传播和便携式媒体播放器中。基于Apple QuickTime“MOV”格式的MP4能够将不同比特率的音视频媒体数据进行编码,也拥有编码多声道(环绕声)的能力。
(12)AAC
AAC高级音频编码(Advanced Audio Coding)是由Dolby实验室、SonyATT和F raunhofer研究所共同研制开发的,针对于网络安全教字音频传输的一种多声道音频编码格式。相对于其他音频编码格式,AAC声称可以在低比特率条件下达到CD的音质。此外,AAC不仅能够对单声遁、双声道及5.1环绕声进行编码,还能够用24bit/96kHz的单比特流编码高达48声道的音频格式。AAC格式也遵循安全数字音乐协会(Secure Digital Music Initiative或SDMI)的规范,对有版权的节目提供保护,防止其在没有授权的情况下被复制和传播。
(13)FLAC(Free LossIess Audio Codec)
是一种无损压缩格式,能够在保证原始双声道立体声和多声道音频节目音质无损的情况下,将原文件的数据量压缩40%~50%。正如其名字的含义,FLAC是自由开放源代码的编码格式,可以完全免费地被软件开发者来使用。
(14)WMA
WMA的全称是Windows Media Audio,是微软力推的一种音频压缩格式。WMA格式是以减少数据流量但保持音质的方法达到更高的压缩率目的,其压缩率一般可以达到1∶18,生成的文件大小只有相应MP3文件的一半。
WMA文件可以在仅仅20KB/ps的数据流量下提供可听的音质,因此WMA常常当作用于在线收听和广播的首选,微软早就在Windows Media Player中提供了播放支持。此外,WMA还可以通过DRM(Digital Rights Management)方案加入防止拷贝,或者加入限制播放时间和播放次数,甚至是播放机器的限制,可有力地防止盗版。
WMA和MP3的优劣一直是大家争论的焦点,其实这是一个无法回答的问题。这要看你的实际需要,是追求高音质(MP3)还是高压缩率(WMA)。
(15)ReaI Audio(.RA或.RAM)
Real Audio是Real networks推出的一种音乐压缩格式;压缩比可达到1∶96,因此在网上比较流行。经过压缩的音乐文件,可以在通过速率为14.4KB/s的MODEM上网的计算机中流畅回放,也就是说边下载边播放。Real Audio编码的音频文件采用“.RA”为后缀。另一种以“.RAM”为后缀的文件是控制“.RA”流式媒体播放的发布文件,它的容量非常小,其功能是控制“.RA”文件边下载边播放的过程。目前使用较广的播放软件是RealPlayer,就是支持流媒体的播放器,它同时支持MP3和RAM等多种音频文件的播放。
(16)MIDI
在多媒体环境中(或不同制造商的音序器之间),我们所广泛接受的用来传输实时MIDI信息的文件格式是标准MIDI文件。标准MIDI文件(以.mid或.smf为扩展名)用于向大众传输MIDI数据、曲目、音轨、拍号以及速度等信息。标准MIDI文件能够同时支持单声道和多声道音序数据,并且几乎能用所有的音序器对其进行读取、编辑和存储。
标准MIDI文件可分为两种基本类型,即类型0(type0)和类型1(typel)。类型0(type0)用于一个音序中的所有音轨合并到一个独立的MlDI音轨之中。所有的音轨都附带一个通道号码(也就是在一个序列里播放不同乐器),但数据没有明确的音轨分配。因此0类型是针对互联网制作MIDI音序(这时音序器和MIDI播放器应用程序可能并不需要处理多轨信息)的最佳选择。
类型1(typel)与0类型相反,它保留其原有的音轨信息结构,并可附带着其原有基本音轨信息和编排顺序输入到另外一个音序器中。