多媒体动态网页设计
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第1章 多媒体技术基础知识

多媒体技术是当今信息技术领域发展最快、最活跃的技术,也是最受人们关注的特点技术之一。多媒体技术融计算机、声音、文本、图像、动画、视频和通信等多种功能于一体,它借助日益普及的高速信息网,可实现计算机的全球联网和信息资源共享。多媒体技术的发展改变了计算机的使用领域,使计算机由办公室、实验室中的专用品变成了信息社会的普通工具,并广泛应用于工业生产管理、学校教育、公共信息咨询、商业广告、军事指挥与训练,甚至家庭生活与娱乐等领域。

1.1 多媒体技术的基本概念

多媒体主要是指文本、声音、图像和动画等多种表达信息的形式和媒体,它强调多种媒体信息的综合和集成处理。多媒体技术依赖于计算机的数字化和交互处理能力,它的关键是信息压缩技术和数据存储技术等。

1.1.1 多媒体的定义

“多媒体”一词译自英文multimedia,而该词是由multiple和media复合而成的。因此从字面上看,多媒体就是多种媒体的综合。但多媒体技术并不是各种媒体的简单组合,而是一种把文本、图形、图像、动画和声音等形式的信息结合在一起,并通过计算机进行数字化的采集、获取、加工、存储和传播而综合为一体的技术。

人们曾从不同的角度对多媒体技术进行了不同的定义。比如有人定义“多媒体计算机是一组硬件和软件设备。多媒体技术结合了多种视觉和听觉媒体,能够产生令人印象深刻的视听效果。在视觉媒体上,包括图形、动画、图像和文字等媒体,在听觉媒体上,则包括语言、立体声响和音乐等媒体。用户可以从多媒体计算机同时接触到各种各样的媒体来源”。还有人定义多媒体是“传统的计算媒体——文字、图形、图像及逻辑分析方法等与视频、音频及为了知识创建和表达的交互式应用的结合体”。概括起来,多媒体技术即是计算机交互式综合处理多媒体信息——文本、图形、图像和声音,使多种信息建立逻辑连接,集成为一个系统并具有交互性。简言之,多媒体技术就是具有集成性、实时性和交互性的计算机综合处理声音、文字、图像信息的技术。

1.1.2 多媒体中的媒体元素及其特征

多媒体中的媒体元素是指多媒体应用中可显示给用户的媒体组合,目前主要包含文本、图形、图像、声音、动画和视频等。充分使用各种媒体元素是多媒体技术的基本特点。

1.文本

文本是指各种文字及文字段落。与其他媒体元素相比,文字表达的信息具有准确性和概括性的优点,因此文本是表达思想和情感的重要媒体形式。通过对文本显示方式的组织,如层次分明的版面,可以使显示的信息易于理解。

文本文件有多种文件格式及其编辑软件,参见表1-1。在多媒体制作中经常需要进行文本格式转换。文本文件中,如果只有文本信息,没有段落格式、字体格式、分栏、边框等任何有关格式的信息,则称为非格式化文本文件或纯文本文件(如txt文件);而带有各种文本排版信息等格式信息的文本文件,称为格式化文本文件(如 doc、wps、wri 等文件)。文字的样式是由字的格式、字的定位、字体、字的大小及它们的各种组合形成的,改变文字的样式,可以使文本呈现多样化。

表1-1 常见文本格式及其编辑软件

文本媒体的优势在于可以反复阅读,而且相对于图像等其他媒体来说,普通文本或格式化文本对存储空间、信道传输能力的要求都是最少的。但其形式呆板,仅能利用视觉获得,需要靠人的思维进行理解,难以描述对象的形态、运动等特征。

2.图形和图像

图片是学习者很容易接受的信息,一幅图片可以形象、生动、直观地表现出大量的信息。用图像补充文字信息,可以增强人们对展示信息的理解和记忆。有时用语言和文字难以表达的事物,用一张简单的图就可能精辟而准确地展现,因此在计算机中图像信息的获取和处理就显得非常重要。

在多媒体屏幕中呈现的静态画面有两种类型。一种是由外部轮廓线条构成的矢量图,通常称为图形。它是一种抽象化的形状,多是由计算机绘制的直线、圆、矩形、曲线、图表等。它承载的信息量比较少,因此数据量少。矢量图的最大优点是可以分别控制处理图中的各个部分,如使局部在屏幕上移动、旋转、放大、缩小、扭曲而不失真,不同的物体还可以在屏幕上重叠并保持各自的特性,必要时还可分开。矢量图主要用于表示线框型的图画、工程制图、美术字等。三维造型软件大多使用矢量图。另一种是由扫描仪、摄像机等输入设备捕捉的实际景物画面产生的数字图像,由像素点阵构成,这样的画面称为位图,通常称为图像。它的色彩比较丰富,层次感强,可以真实地重现生活环境,其承载的信息量比较大,通常用于表达含有大量细节(如明暗变化、场景复杂、轮廓色彩丰富)的对象,但图像文件存储量往往比较大,而且在缩放过程中容易造成变形或出现锯齿现象。图形和图像的区别参见表1-2,PC中的常见图形图像文件类型参见表1-3。

表1-2 图形和图像的区别

(续表)

表1-3 常见图形图像文件类型

3.声音

声音可在许多方面改进多媒体的表达能力,多媒体技术为计算机增加了音频通道,采用人们最熟悉、最习惯的方式交换信息。

根据使用中的区别,音频又可分为语音、音乐和音响效果。根据计算机产生声音的原理,又可以将音频分为声音文件和MIDI音乐。表面上看它们似乎是可互换的,其实它们代表两种完全不同的媒体格式。

声音文件是实际声音的数字化录音。无论声音是普通响声(如关门声)还是音乐(如管弦乐队的演奏),都是人们用麦克风录制的数字文件。这一过程与通过把声音录制为数字格式来制作音乐CD的过程十分相似。

数字音乐文件或称MIDI文件则与声音文件不同,它们不是实际声响的录音,而是一种合成声音。MIDI(Musical Instrument Digital Interface,乐器数字接口)是20世纪80年代提出的数字音乐的国际标准,MIDI 文件实际上是一段音乐的描述信息,这些信息需要通过音乐合成器进行解释,该合成器根据MIDI提供的详细描述乐谱的协议(音符、音调、使用什么乐器等)产生出相应的一段音乐或声音。计算机中常用的用于存储声音的文件如下。

(1)WAV文件。WAV是微软公司开发的一种声音文件格式,它是由计算机直接把模拟声音经过取样—量化处理,变成与声音波形对应的数字信号,记录在计算机的存储介质(硬盘或光盘)中。通常,声音文件都比较大。

(2)MIDI文件。MIDI文件是指计算机中记录的MIDI信息的数据,MIDI文件的扩展名是.mid。MIDI 文件不是直接记录乐器的发音,而是记录演奏乐器的各种信息或指令,如用哪一种乐器,什么时候按某个键,力度怎么样,等等,它需要具有MIDI功能的乐器配合才能编曲和演奏。由于不保存声音的采样数据,因此MIDI文件通常比声音文件小得多。

(3)MP3文件。MP3(Moving Picture Experts Group Audio Layer III)是目前用户数最多、应用最为广泛的有损压缩数字音频格式。简单地说,MP3是一种音频压缩技术,由于这种压缩方式的全称是MPEG Audio Layer 3,所以人们把它简称为MP3,其文件扩展名是.mp3。

MP3将WAV文件以1∶10甚至1∶12的压缩率压缩成容量较小的文件,它能保证在音质丢失很小的情况下把文件压缩到最小的程度,并较好地保持原来的音质。

(4)RM音乐流。RM(Real Media)是real公司创建的一种音视频格式,RM格式既可以是纯音频的,也可以是带视频的,通常RM格式用在视频上居多。有很多网络上的电影都是RM格式的,用RealPlayer播放器就可以播放。RM格式更多地是应用于网络上的流媒体协议,因为它具有更小的体积、更快的速度。

4.视频

视频是对现实世界的真实记录,若干有联系的图像数据连续播放便形成了视频。每一个画面称为帧,帧连续播放速度达到每秒20帧以上,人眼就觉察不出画面之间的不连续。

从存储形式看,视频可分为模拟视频和数字视频。模拟视频主要是指在时间和空间上都是连续的信号,例如目前一般电视系统采用的是模拟存储方式。而数字视频系统是以数字化方式记录连续变化的图像信息的信息系统,并可在应用程序的控制下进行回放,甚至通过编辑操作加入特殊效果。计算机视频数据就是数字式的。

视频图像可以是来自录相带、摄像机等视频信息源的影像。这类信号源输出的大多是标准的模拟彩色全电视信号,要把它输入计算机中,首先要通过视频信号捕捉,使模拟信号转换为数字信号,然后按照一定的格式压缩后存储,在播放时需要快速解压缩后才能显示。数码摄像技术给计算机视频提供了更为便捷优质的信号源。

借助计算机对多媒体的控制能力,可以实现视频的播放、暂停、快速播放、反序播放等功能。也可以运用视频编辑硬件和软件,为视频增加特技效果,如硬切、淡入、淡出、复制、镜像、马赛克、万花筒等,还能很方便地叠加字幕,使影像更加丰富多彩。视频的信息量比较大,具有很强的感染力。通常情况下,视频采用声像复合格式,即在呈现事物图像的时候,同时伴有解说效果或背景音乐。在PC中,视频文件的格式主要有以下几种。

(1)AVI。AVI(Audio Video Interleaved,音频视频交错格式),是可以将视频和音频交织在一起进行同步播放的一种格式。这种视频格式的优点是图像质量好,可以跨多个平台使用,其缺点是体积过于庞大。以AVI格式存储的视频文件的扩展名是.avi。

AVI是目前视频文件的主流。这种格式的文件随处可见,比如一些游戏、教育软件的片头、多媒体光盘中都会有不少的AVI文件,用来保存电视、电影等各种影像信息。

(2)MEPG。MEPG(Moving Picture Expert Group)是指运动图像专家组格式。家里常看的VCD、SVCD、DVD就是这种格式。MPEG文件格式是运动图像压缩算法的国际标准,它采用了有损压缩方法,从而减少了运动图像中的冗余信息。MPEG的压缩方法简单来讲就是保留相邻两幅画面绝大多数相同的部分,而去除后续图像中和前面图像相比有冗余的部分,从而达到压缩的目的。目前MPEG格式有三个压缩标准,分别是MPEG-1、MPEG-2和MPEG-4,MPEG-7与MPEG-21仍处在研发阶段。以MPEG格式储存的视频,其扩展名是.mpg或.mpeg。

(3)ASF。ASF(Advanced Streaming Format,高级流媒体格式),是微软为Windows所开发的串流多媒体文件格式。ASF是一种数据格式,音频、视频、图像及控制命令脚本等多媒体信息通过这种格式,以网络数据包的形式传输,实现流式多媒体内容发布。其中,在网络上传输的内容就称为ASF Stream。ASF支持任意的压缩/解压缩编码方式,并可以使用任何一种底层网络传输协议,具有很大的灵活性。ASF 文件也是一种文件类型,但它是专为在 IP 网上传送有同步关系的多媒体数据而设计的,所以ASF格式的信息特别适合在IP网上传输。ASF文件的内容既可以是我们熟悉的普通文件,也可以是一个由编码设备实时生成的连续的数据流,所以 ASF 既可以传送人们事先录制好的节目,也可以传送实时产生的节目。

5.动画

静态图像一幅幅地连续播放,就产生了动画效果。动画的连续播放既指时间上的连续,也指图像内容上的连续,也就是播放的相邻两幅图像之间内容相差不大。可以说,动画是对事物运动、变化过程的模拟。在许多领域中,利用动画来表现事物甚至比视频效果更好。动画既提供了静态图形缺少的运动景象,它是一种可感觉到相对于时间、位置、方向和速度运动的动态媒体,又忽略了事物运动变化过程中的次要因素,突出强化了其本质要素,更有利于观看者把握本质规律。

计算机设计动画的方法有两种。一种是造型动画,是对每一个运动的物体分别进行设计,使每个对象有一些特征,如大小、形状、颜色等,然后用这些对象构成完整的帧画面。另一种是帧动画,是由一幅幅位图组成的连续画面,就像电影胶片一样,要分别设计每一幅的画面。计算机制作动画时,只需要做好主动做的画面或关键帧的画面,其余的中间画面都可以由计算机自动生成,并把不运动的画面直接复制过去。根据透视效果,计算机动画可以分为二维动画和三维动画。制作动画的软件工具较复杂、庞大,对硬件的要求较高。常见的动画类型和制作软件参见表1-4。

表1-4 常见的动画类型和制作软件

1.1.3 多媒体技术的基本特性

多样性、集成性和交互性是多媒体技术必须具备的基本特征,另外,多媒体技术还具备数字化、实时性和超媒体结构等特征。

(1)多样性。指媒体种类的多样性,既有最简单的文本信息,又有与空间有关的图形、图像,还有与时间有关的音频信息、视频信息。

(2)集成性。多媒体技术是多种媒体的有机集成。每一种媒体都有其自身规律, 各种媒体之间必须有机地配合才能协调一致。多种媒体之间的协调及时间、空间的协调是多媒体的关键技术之一。多媒体技术的集成性表现在两个方面。一方面多媒体技术是在数字化的基础上,将文字、图形、图像、声音、动画和视频等各种媒体集成的一种应用。与传统文件相比,是一个利用计算机技术来整合各种媒体的系统。各种类型的信息媒体代码在计算机内不是孤立、分散的,它们之间是相互关联的,这种关联的建立不是简单的罗列或叠加,而是需要对信息进行各种重组、变换和加工,把它们集成为一个新的应用系统。另一方面,多媒体技术要求计算机采用高新的硬件技术和软件技术。作为集成系统的计算机必须具有高速、并行处理能力的CPU、大容量存储设备、适应多媒体的多通道输入输出能力,构成一个多媒体操作平台,协调一致地处理各种媒体的工作。

(3)交互性。交互性是指人机交互功能,在多媒体系统中用户不是被动接受而是积极参与其中的所有活动,用户的反应和参与是系统的重要特性。

(4)数字化。无论是文本、图形、图像,还是声音、视频,各种媒体都是以数字化的形式在计算机中存储和处理的。因此,在输入声音、视频等各种待处理的媒体时,需要通过模拟/数字转换的方法,将它们转换为计算机能够接受的数字形式;而输出时,则需要再转换成能为人们所接受的各种形式。

(5)实时性。实时性是指多媒体系统中声音及活动的视频图像是强实时的,多媒体系统提供了对这些时基媒体实时处理的能力。例如,在播放音频文件时一定要保证声音的连续性,这就对存取数据的速度、解压缩的速度及最后播放的速度提出了很高的要求,这就是媒体的实时性。对于具有时间要求的媒体,如果不能保证播放时的连续性,就没有任何应用价值。

(6)超媒体结构。多媒体信息的组织形式是以超文本的结构形式存在的。所谓超文本结构,就是信息的组织方式不是像书本那样一页页按顺序安排的,而是以信息内容本身所具有的互相联系的特性进行组织的。Windows中的帮助信息就是以超文本形式组织的,而因特网上的信息也是以这种方式组织的。如果以超文本形式组织的信息包含图形、图像、声音、视频等多媒体信息,便将这种信息的组织结构称为超媒体结构。

1.1.4 多媒体技术研究的内容

多媒体技术的研究涉及诸多难题,主要包括以下几个方面:多媒体数据压缩、多媒体数据的组织与管理、多媒体信息的展现与交互、多媒体通信与分布处理、虚拟现实技术。

1.多媒体数据压缩

在多媒体系统中,涉及的各种媒体信息如图形、图像、视频和音频等,所需要的存储空间十分巨大。例如,一个A4幅面的照片,如果用12点/毫米2的分辨率采样,每个像素用24位彩色信号表示时,数据量是25 MB。而1分钟的声音信号,用11.02 kHz的采样率,每个采样用8位表示时的数据量大约是 660 KB。如果不经过数据压缩,实时处理数字化的声音和图像信息所需的存储容量、传输率和计算速度都是目前的计算机难以承担的。因此,数据压缩技术在多媒体技术中起着非常关键的作用。对静止图像、运动图像和声音要采用不同的压缩算法。以下分别简要介绍。

(1)静止图像的压缩

国际电话电报咨询委员会(CCITT)和国际标准化组织(ISO)组成的联合图像专家小组(Joint Photographic Expert Group,JPEG)制定的静止图像压缩算法标准已被广泛采用。JPEG标准适用于压缩静止的灰度图像和彩色图像,具有良好的效果。JPEG 标准可应用于彩色打印机、灰度和彩色扫描、传真机。采用这种压缩格式的文件一般称为JPEG文件,此类文件的扩展名有.jpeg、.jfif、.jpg或.jpe,其中在主流平台最常见的是.jpg。

JPEG标准分成三组:第一组是基本压缩系统(Base Compress System),这是所有与JPEG兼容的最小系统;第二组是扩展系统(Extended System),它在基本系统的基础上增加了算术编码、渐进构造等特性;第三组是分层的渐进方法(Hierachical Progressive Method),它通过滤波建立一个分辨率逐渐降低的图像序列,在此基础上进行编码。目前普遍使用的是基本压缩系统。

JPEG 采用有损压缩方式去除冗余的图像和彩色数据,以取得极高的压缩率,同时又能展现十分丰富生动的图像。换句话说,就是用最少的磁盘空间得到较好的图像质量。由于JPEG是一种有损压缩格式,图像中重复或不重要的资料会丢失,因此容易造成图像数据的损伤。尤其是使用过高的压缩比例,将使最终解压缩后恢复的图像质量明显降低。如果追求高品质图像,不宜采用过高压缩比例。

JPEG 是一种很灵活的格式,具有调节图像质量的功能,允许用不同的压缩比例对文件进行压缩,支持多种压缩级别,压缩比率通常在10∶1到40∶1之间。压缩比越大,品质就越低。JPEG格式压缩的主要是高频信息,对色彩的信息保留较好,适合用于因特网,可减少图像的传输时间,可以支持24位真彩色,也普遍应用于需要连续色调的图像。

由于JPEG优异的品质和杰出的表现,它的应用也非常广泛,特别是在网络和光盘读物上。目前各类浏览器均支持JPEG图像格式。因为JPEG格式的文件尺寸较小,下载速度快,使得Web页有可能以较短的下载时间提供大量美观的图像。

随着多媒体应用领域的扩大,传统JPEG压缩技术已无法满足人们对多媒体影像资料的要求。因此,更高压缩率及更多新功能的新一代静态影像压缩技术JPEG2000就诞生了。与JPEG相比, JPEG2000 具有如下优点:作为 JPEG 升级版,JPEG2000 压缩率比 JPEG 高 30%左右;JPEG2000同时支持有损和无损压缩,而 JPEG 只支持有损压缩,无损压缩对保存一些重要图片十分有用;JPEG2000能实现渐进传输,这是JPEG2000的一个极其重要的特征,即它先传输图像的轮廓,然后逐步传输数据,不断提高图像质量,让图像由朦胧到清晰显示,而不像JPEG是由上到下慢慢显示;JPEG2000 支持所谓的“感兴趣区域”特性,可以任意指定影像上感兴趣区域的压缩质量,还可以选择指定的部分先解压缩,这样就可以很方便地突出重点了。JPEG2000 既可应用于传统的 JPEG市场,如扫描仪、数码相机等,又可应用于新兴领域,如网路传输、无线通信等。

(2)运动视频图像的压缩

用于运动视频图像的常用压缩算法有:由CCITT和ISO联合推荐的运动图像专家小组(Motion Photographic Expert Group,MPEG)标准;英特尔公司在DVI(Digital Video Interactive)技术中使用的压缩算法;CCITT推荐的H.261压缩算法。

MPEG 算法用于信息系统中视频和音频信号的压缩。它是一个与特定应用对象无关的通用标准,从CD-ROM上的交互式系统到电信网络以及视频网络上的视频信号发送,都可以使用该标准。MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术来减小时间冗余度,利用DCT(离散余弦变换)技术来减小图像的空间冗余度,利用熵编码在信息表示方面来减小统计冗余度。这几种技术的综合运用,大大增强了压缩性能。

MPEG标准主要有5个:MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21。

MPEG-1标准于1992年正式出版,标准的编号为ISO/IEC11172,其标题为“码率约为1.5 Mb/s用于数字存储媒体活动图像及其伴音的编码”。MPEG-1的图像质量与家用电视系统(VHS)相近,压缩后的数据率为1~2 Mb/s,这适合于目前大多数存储介质和电信通道,如CD-ROM驱动器、硬盘存储器和个人计算机总线的传输。MPEG-1的压缩比约为100∶1,在MPEG-1算法中不但要进行每帧图像的帧内压缩,而且要通过帧间压缩来进一步去除时间序列的信息冗余。在进行帧内压缩时的算法类似于 JPEG 算法,在帧间压缩时要做运动补偿。这时涉及大量的计算,并要求这些计算按视频速度完成。因此,MPEG算法的实现要求很高的计算能力。这就促使了对MPEG-1实时处理器的研制。目前,能实时完成MPEG-1解码算法的DSP(Digital Signal Processing)芯片已经相当普及。

MPEG-2标准于1994年公布,包括编号为13818-1的系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。MPEG-2算法适用于电视或计算机显示质量的图像,压缩以后的数据率为5~10 Mb/s,MPEG-2的有关技术已经趋于成熟,能实时完成MPEG-2解码算法的DSP芯片已经上市。

MPEG-4 是基于内容的压缩编码标准,于 1998 年 11 月被 ISO/IEC 批准为正式标准,编号为ISO/IEC14496。它不仅针对一定比特率下的视频、音频编码,更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等,对传输速率要求较低,在4800~6400 b/s之间,分辨率为176×144。MPEG-4利用很窄的带宽,通过帧重建技术、数据压缩,以求用最少的数据获得最佳的图像质量。利用 MPEG-4 的高压缩率和高的图像还原质量,可以把 DVD 里面的MPEG-2视频文件转换为体积更小的视频文件。经过这样处理,图像的视频质量下降不大但体积可缩小至原来的几分之一,可以很方便地用CD-ROM来保存DVD上面的节目。

继MPEG-4之后,要解决的矛盾就是对日渐庞大的图像、声音信息的管理和迅速搜索。针对这个矛盾,MPEG提出了解决方案MPEG-7。MPEG-7力求能够快速且有效地搜索出用户所需的不同类型的多媒体资料。该工作提议于1998年10月提出,于2001年初最终完成并公布。MPEG-7对各种不同类型的多媒体信息进行标准化的描述,并将该描述与所描述的内容相联系,以实现快速有效的搜索。该标准不包括对描述特征的自动提取,也没有规定利用描述进行搜索的工具或任何程序。其正式的称谓为“多媒体内容描述接口”。MPEG-7可独立于其他MPEG标准使用,但MPEG-4中所定义的对音视频对象的描述适用于MPEG-7,这种描述是分类的基础。MPEG-7的应用范围很广泛,既可应用于存储(在线或离线),也可用于流式应用(如广播、将模型加入Internet等)。它可以在实时或非实时环境下应用,如数字图书馆(图像目录、音乐字典等)、多媒体名录服务(如黄页)、广播媒体选择(无线电信道、TV信道等)、多媒体编辑(个人电子新闻业务、媒体写作)等。

1999年10月的MPEG会议上提出了“多媒体框架”的概念,同年12月的MPEG会议确定了MPEG-21的正式名称是“多媒体框架”或“数字视听框架”,它以将标准集成起来支持协调为技术,以管理多媒体商务为目标,目的就是理解如何将不同的技术和标准结合在一起、需要什么新的标准及完成不同标准的结合工作。

MPEG 是一组优秀的压缩/解压缩方案。首先,由于在一开始它就是作为一个国际化的标准来研究制定,所以MPEG具有很好的兼容性。其次,MPEG能够提供比其他算法更好的压缩比,最高可达200∶1。更重要的是,MPEG在提供高压缩比的同时,对数据的损失很小。

(3)音频压缩技术标准MP3

MP3是应用于MPEG-1的一项音频压缩技术标准。利用MP3技术,可得到较高质量的音响效果。它能将CD格式压缩为MP3格式,音效相差无几,但文件大小至少可达到原文件的1/12(每首WAV格式的CD歌曲大约为40~50 MB)。因此让使用者不必再编辑MPEG文件,而让以MP3为后缀的声音文件在网络上传输得以实现。MP3的编码技术也是针对人类听觉能力而设的,几乎可以称之为音乐格式的最终编码。

MP3格式文件(.mp3)的播放大致为每分钟1兆字节,而品质可接近CD音效。一张光盘(650 MB)可容纳近11小时的歌曲(或约130首歌曲),而一张CD只能容纳10多首歌曲。MP3的播放可通过在计算机上使用软件解压缩或用专门的具有MP3解压缩芯片的MP3播放机播放。

2.多媒体数据的组织与管理

数据量大、种类繁多、关系复杂是多媒体数据的基本特征。以什么样的数据模型表达和模拟这些多媒体信息空间?如何组织存储这些数据?如何管理这些数据?如何操纵和查询这些数据?这是传统数据库系统的能力和方法难以胜任的。目前,人们利用面向对象(Object Oriented,OO)方法和机制开发了新一代面向对象数据库(Object Oriented Data Base,OODB),结合超媒体(Hypermedia)技术的应用,为多媒体信息的建模、组织和管理提供了有效的方法。与此同时,市场上也出现了多媒体数据库管理系统。但是 OODB 和多媒体数据库的研究还很不成熟,与实际复杂数据的管理和应用要求仍有较大的差距。

3.多媒体信息的展现与交互

在传统的计算机应用中,大多数都采用文本媒体,所以对信息的表达仅限于显示。在未来的多媒体环境下,各种媒体并存,视觉、听觉、触觉、味觉和嗅觉媒体信息的综合与合成,就不能仅仅用“显示”完成媒体的表现了。各种媒体的时空安排和效应、相互之间的同步和合成效果、相互作用的解释和描述等都是表达信息时所必须考虑的问题。有关信息的这种表达问题统称为“展现”。尽管影视声响技术广泛应用,但多媒体的时空合成、同步效果、可视化、可听化及灵活的交互方法等仍是多媒体领域需要研究和解决的棘手问题。

4.多媒体通信与分布处理

在现行使用的通信网络中,如电话网、广播电视网和计算机网络,其传输性能都不能很好地满足多媒体数据数字化通信的需求。要真正解决多媒体通信问题的根本方法,还有待于“信息高速公路”的最终实现。宽带综合业务数字网(B-ISDN)是目前解决这个问题的一个比较完整的方法,其中ATM(异步传输模式)是近年来在研究和开发上的一个重要成果。

多媒体的分布处理是一个十分重要的研究课题。因为要想广泛地实现信息共享,计算机网及其在网络上的分布式与协作操作就不可避免。多媒体空间的合理分布和有效的协作操作将缩小个体与群体、局部与全球的工作差距。超越时空限制、充分利用信息、协同合作、相互交流、节约时间和经费等是多媒体信息分布的基本目标。

5.虚拟现实技术

随着网络技术、三维技术和仿真技术的发展,人们不再满足于二维空间的简单的图片、文字和声音,而希望呈现出一个类似于实物的三维场景,即一种交互的、三维的、动态的、逼真的世界,这就是虚拟现实。

(1)虚拟现实技术的概念

虚拟现实是利用计算机生成一个逼真的视觉、听觉、触觉及嗅觉等的模拟环境(如飞机驾驶舱、分子结构世界等),通过多种传感设备使用户“投入”到该环境中,用户可通过其感官与这一生成的虚拟实体进行交互沟通,如同与真实的环境直接进行自然交互的技术。所谓“模拟环境”,一般是指用计算机生成的有立体感的图形,它可以是某一特定现实环境的表现,也可以是纯粹构想的世界。虚拟现实技术实现的是人所感受到的虚拟幻境,所以钱学森建议把Virtual Reality的技术称为“灵境技术”,由它构成的信息处理环境称为“灵境”。

(2)虚拟现实技术的含义

虚拟现实技术分为虚拟实景(境)技术(如虚拟游览故宫博物馆)与虚拟虚景(境)技术(如虚拟现实环境生成、虚拟设计的波音777飞机等)两大类。虚拟现实技术的应用领域和其交叉领域非常广泛,几乎到了无所不包、无孔不入的地步,如虚拟战场环境,虚拟作战指挥模拟,飞机、船舶、车辆虚拟现实驾驶训练,飞机、导弹、轮船与轿车的虚拟制造(含系统的虚拟设计),虚拟现实建筑物的展示与参观,虚拟现实手术培训,虚拟现实游戏,虚拟现实影视艺术等方面的应用和产业的形成,都有强烈的市场需求和技术驱动。虚拟现实技术的发展,不仅从根本上改变人们的工作方式和生活方式,人们在享受的环境中工作,又在工作过程中得到享受真正做到劳逸结合,而且虚拟现实技术与美术、音乐等文化艺术的结合,将诞生人类的第九艺术。随着计算机技术的发展,在PC上实现虚拟现实技术已成为可能。虚拟现实技术主要有以下三方面的含义。

第一,虚拟现实技术是通过计算机生成一个非常逼真的实体,逼真需达到三维的视感,甚至还包括听觉、触觉和嗅觉等。这个逼真的实体足以成为“迷惑”人类视觉的虚幻的世界。这种“迷惑”是多方面的,不仅可以看到,而且可以听到、触到甚至嗅到这个虚拟世界中所发生的一切。这种感觉真实得如同亲临在这个虚幻的世界中,这就是虚拟现实的第一个特征,即浸没感(Immersion)或临场参与感。

第二,虚拟现实与通常CAD系统所产生的模型不同,它不是一个静态的世界,而是一个动态的、开放的环境,它可以对使用者的输入(如手势、语言命令)做出响应。如搬动虚拟环境中的一个虚拟盒子,甚至还可以在搬动盒子时感受到盒子的质量;推动操纵杆,就可以在虚拟环境中漫游,甚至还可以用虚拟的手感触到虚拟物体的存在。虚拟现实环境可以通过一些三维传感设备来完成交互动作,这是虚拟现实技术的第二个特征,即交互性(Interaction)。

第三,虚拟现实不仅仅是一个媒体、一个高级用户界面,它还是为解决工程、医学、军事等方面的问题而由开发者设计出来的应用软件,它以详尽的形式反映了设计者的思想。如在盖一座现代化的大厦之前,首先要做的事是对这座大厦的结构做细致的构思,为了使之定量化,还需设计许多图纸。这些图纸反映的是设计者的构思,虚拟现实同样反映的是某个设计者的思想,只不过它的功能远比那些呆板的图纸生动、强大得多,所以国外有些学者称虚拟现实为放大人们心灵的工具,或人工现实(Artifical Reality)。这是虚拟现实技术所具有的第三个特征,即思想性(Imagation)。

(3)虚拟现实系统的基本构成

虚拟现实系统的工作流程大致如下:用户通过头盔、手套和话筒等输入设备为计算机提供输入信号,虚拟现实软件收到输入信号后加以解释,然后对虚拟环境数据库进行必要更新,调整当前虚拟环境视图,并将这一新视图及其他信息(如声音)立即传送给输出设备,以便用户及时看到效果。由此可见,虚拟现实系统由输入部分、输出部分、虚拟环境数据库、虚拟现实软件组成,如图1-1所示。

图1-1 虚拟现实系统的组成

虚拟现实系统通过输入部分接收来自用户的信息。用户基本输入信号包括用户的头、手位置及方向、声音等。其输入设备主要有:①数据手套,用来监测手的姿态,将人手的自然动作数字化。用户手的位置与方向用来与虚拟环境进行交互。如在使用交互手套时,手势可用来启动或终止系统。类似地,手套可用来拾起虚拟物体,并将物体移到别的位置。②三维球,用于物体操作和飞行控制。③自由度鼠标,用于导航、选择及与物体交互。④生物传感器,用来跟踪眼球运动。⑤头部跟踪器,通常装在HMD头盔上跟踪头部位置,以便使HMD显示的图像随头部运动而变化。用户头的位置及方向是系统重要的输入信号,因为它决定了从哪个视角对虚拟世界进行渲染。⑥语音输入设备,通过话筒等声音输入设备将语音信息输入,并利用语音识别系统将语音信号变成数字化信号。

虚拟现实系统根据人的感觉器官的工作原理,通过虚拟现实系统的输出设备,使人在虚拟现实系统的虚拟环境中得到虽假犹真、身临其境的感觉。它主要是由三维图像视觉效果、三维声音效果和触觉(力觉)效果来实现的。三维图像的生成与显示,是利用图形处理器、立体图像显示设备、高性能计算机系统将计算机数字信号变成三维图像。最简单的一种是计算机监视器和一副能看到三维画面的眼镜,另一种就是头盔显示器。虚拟现实系统的声音效果包括音响和语音效果。通过有关的声音设备使电子信号变成立体声,并提供识别立体声声源和判定其空间方位的功能。触觉提供手握物体时获得的丰富感觉信息,包括分辨表面材质及温度、湿度、厚度、张力等。用户的手是与虚拟环境进行自然交互时的重要途径。当手与虚拟物体发生碰撞时,我们自然希望有接触感和压力感。

虚拟环境数据库的作用是存放整个虚拟环境中所有物体的各方面信息(包括物体及其属性,如约束、物理性质、行为、几何、材质等),它由实时系统软件管理,数据库中的数据只加载用户可见部分,其余留在磁盘上,需要时导入内存。

虚拟现实软件的任务是设计用户在虚拟环境中碰到的景和物。常用软件有:①三维物体建模软件,如AutoCAD、Multigen、虚拟现实技术ML等;②虚拟场景的建立及三维物体与虚拟场景的集成软件,如Vega、OpenGVS、虚拟现实技术、TVtree等。