多媒体计算机技术全章节复习资料

来源：刀刀网

多媒体的发展方向：从更深层次、从技术故障本身开始让技术在更基本的层面上解决普通人。 1.1 多媒体技术的基本概念 1.1.1 媒体：一是指用以存储信息实体，如磁盘磁带半导体存储器等；二是指信息的载体如数字、文字、声音、图形图像视频等。

CCITT的媒体定义和分类：1.感觉媒体：直接作用与人的感官，使人产生直接的感觉的媒体；2.表示媒体：为了加工处理和传输感觉媒体而人为的研究构造的媒体（编码方式）可分三类，按时间划分为离散媒体和连续媒体，按空间属性划分为一维、二维、三维媒体，按生产属性划分为自然媒体和合成媒体；3.显示媒体：指感觉媒体用于通信的电信号之间转换的一类媒体（摄像机显示器）、4.存储媒体：用来存放媒体，以便计算机调用（存储器）；5.传输媒体：将媒体从一个地方传到另一个地方的物理载体（网线）

1.1.2 多媒体：是指信息表示媒体的多样化。

多媒体的重要特征：1.化，指多媒体的多样化：2.集成性，指多媒体设备、信息、表现的集成；3.交互性，是人们获取和使信息变被动为主动的最为重要的特征；4.实时性，也为动态性指多媒体就是中涉及的媒体。 1.2 多媒体计算机技术的发展历史

Mac：1984 apple Mac Bitmap windows icon CD-I：1986 PHILIPS and SONY DV-I：1987 RCA AVC：19 IBM

MPC：1990 HHILIPS

MPC1组成：PC、CD-ROM、声卡、Windows 3.1、音箱或耳机及性能参数

1.3 多媒体技术

多媒体信息处理的最终目标：能跨越各种不同的网络和设备，透明的、强化的使用多样媒体资源。

多媒体系统关键技术分为：多媒体涉及的处理、存储、传输和多媒体输入输出技术。 1.3.1 多媒体软件和硬件平台：实现多媒体系统的物质基础

多媒体计算机软件和硬件系统组成：多媒体计算机硬件系统、多媒体核心系统软件、多媒作平台与工具、多媒体创作与编辑软件、多媒体应用系统 1.3.2 专用芯片:一种是固定功能的芯片，一种是可编程的处理器。

处理音频和视频：先要把音频和视频喜欢数字化，以数字信息的形式载入计算机存储器中，再对其编辑处理。 1.3.3 数据压缩及编码技术

PCM脉冲编码调制：1984 Oliver 有效的压缩算法应考虑：媒体的种类、应用的对象、应用的要求以及采用的设备特性等因素。 1.3.4 多媒体同步

多媒体数据进行处理时，不仅要考虑各种媒体相对的性，为了较好的信息显示效果，好药之一保持媒体之间在实践和空间上的关联。为了定义不同媒体之间的相互关系，系统应准许用户规定不同媒体之间如何实现彼此之间的复合同步。多媒体信息的三种相互集成模式：

1.制约式，指一种媒体的状态转移或激活影响到另一种媒体。

2.协作式，指两种以上的媒体信息同时存在。

3.交互式,指媒体上含有的信息变换成另一种媒体信息。1和2要求按事件发生的顺序同步，属基本同步。

1.3.5 多媒体网络与分布式处理技术：

多媒体信息处理能力必须与网络技术结合才能充分发挥。分布式处理技术的主要研究内容：如何在网络环境下将复杂任务分解，并借助于网络环境中的不停计算机完成任务。 1.3.6 信息组织与管理

处理大批非规则数据的主要途径：一是扩展现有的关系数据，二是建立面向对象的数据库系统，以存储和检索特定信息。

超媒体：一种新型（天然）的信息管理方法，一般采用面向对象的信息组织和管理。信息的组织将不再是线性的，二是按某种方式以非线性的形式进行存储、管理和浏览，这样，用户对信息的使用更加方便，更加灵活的信息检索形式。

超文本和超媒体适合于表达多媒体信息。 1.3.7 多媒体的数据存储：SAN存域网、服务器存储技术：直接连接存储技术DAS和存储网络技术（很高的安全性且动态扩展能力极强） 1.3.8 虚拟现实（VR）技术：就是采用计算机就是生成一个逼真的视觉、听觉、触觉及嗅觉的感觉世界，用户可以用人的自然技能对这个生成的虚拟实体进行交互参考。 VOXEL MAN虚拟人体：德国汉堡Eppendorf大学

1.3.9 人机界面设计：其计算机系统必须能够采用自然语言或者足以表达信息的图像方式来回答用户的问题。其目的在于通过对用户需求的解释达到一种人机之间较好的通信能力，其研究方向为：1.文件的语言处理模式，包括语音识别和自然语言理解。2.手势分析和理解模式设计。3.上述两点的通信融合，是对用户需求的互补。4.多模式环境中的对话管理，保证连续的对话过程。5.任务的优化图形表达，易于对象理解的方式。

1.3.10 高速多媒体通信技术：是指为满足新一代信息系统中实时多媒体信息传输的需求，网络带快1000Gbps以上，且服务质量控制（QoS），以适应不同媒体传输质量要求。

骨干路由器的要求：至少1Gbps以上交换能力，单个端口速率甚至达到622Mbps 1.4 多媒体技术的应用

只要应用包括：1.音频视频流点播、2.电子出版物、3.医疗卫生、4.游戏与娱乐、5.计算机会议视频、6.多媒体展示盒信息查询系统、7.MIS管理信息系统与OA办公自动化系统、8.传媒和广告、9教学管理系统.、10.移动卫星。

1.5 多媒体技术的发展趋势：1.智能化，其目的在于实现人机的自然交互。2.三维化，重点在于将计算机视觉技术和图形技术的内容结合起来，实现增强实现技术。

2.1 概述。多媒体计算机的组成：1.主机，2.多媒体转接卡，3.多媒体外部设备，按功能分：音频视频输入设备、视频视频输出设备、人机交互设备、存储设备。

2.2 常用的I/O设备：输入设备、输出设备、以及用于网络通信的通信设备。

2.2.1 输入设备:1.手写板，分电阻压力板、电磁感应板、电容触控板。2.图像扫描仪，其性能参数为分辨率、灰度、色彩度、速度、幅度。3.触摸屏，按介质工作原理分电阻式、电容式、红外线、声表面波。

2.2.2 输出设备：1.CRT显示器，大致分两类，一是用于图像处理领域的图像显示器，二是用于图像处理领域的矢量方式图形显示器。按使用种类分存储型、随机扫描型、光栅扫描型。2.液晶显示器LCD，低电压、低功耗，MOS-IS可直接驱动，与系统驱动切合度好。

液晶，指分子具有方向性的液体侧称为液态晶体。按技术性质分单纯矩阵驱动（TN、STN、FLCD、）和主动矩阵驱动（MIM、TFT、PD）3.等离子显示器PDP, 又称电浆显示器。4.背投电视，按投影种类分CRT、 LCD、 DLP L、COS。5.显卡，主要用于对图形函数进行加速。其性能决定于显存的容量、显存的数据位与带宽、显存的速度。6.打印机，最传统的标准计算机输出设备。分点阵式打印机、激光打印机、喷墨打印机。

2.2.3 通信设备：1.调制调解器，作用是利用模拟信号传输线路传输数字信号。ADSL调制调解器的三种线路编码：抑制载波幅度和相位 CAP、离散多音复用 DMT、离散小波多音复用 DWMT。2.网卡，局域网中最基本的部件之一，主要作用是整理计算机上发往网线上的数据，并将数据分解为适当大小的数据包后在网络上发送出去。 2.3 存储设备及存储技术

2.3.1 存储设备 2.3.2 存储技术：1.NAS网络附加存储；2.SAN存储局域网；3.DAS直接附加存储；4.IP存储；5.光存储器；6.虚拟存储，其好处是提高存储利用率，降低成本，简化管理并且具有开放性、扩展性、管理性方面的优势。

2.4 USB设备：USB为通用串行总线，其优点在于：使用方便，可以热插拔、速度快、供电、支持多媒体、低成本。

2.4.1 USB的硬件结构：采用四线电缆，信号定义由2条电源线和2条信号线组成。USB工作方式是基于令牌的总线，其主控制器广播令牌，总线上的设备检测令牌中的地址是否与自身相符，通过接收或发送数据给主机来响应。其通过支持悬挂与恢复操作来管理其总线电源。USB采用主机、集线器、功能设备来组成级联星形拓扑结构。

2.4.2 USB的软件结构；1.总线接口；2.USB系统，由主控制驱动程序、USB驱动程序、USB客户软件组成。

USB主机的功能：检测链接和移除的USB设备；管理主机和USB设备；链接USB状态和活动统计；控制主控制器和USB设备间的电气接口。 2.4.3 USB的数据流传输方式：其分同步传输方式、中断传输方式、控制传输方式、批传输方式。

2.4.4 US B的应用 2.4.5 USB产品 2.5 数字摄像设备

2.5.1 CCD：CCD技术和结构主要考虑最佳的光学属性和图片质量，CCD传感器原理是以横竖线短阵形式排列，各像素点包含一个光电二极管和控制相邻电荷单元，光电二极管将光子转化为电子，聚焦的电子数量相应于光强度，并转换成各自的电荷包单元。

CMOS:采用标准硅处理方法加工。

2.5.2 数字摄像头：主要参数是为最大分辨率、传感器像素、接口类型、色彩位数、感光元件、最大帧数。

2.5.3 数码相机：其特征为像素、镜头、快门。 2.5.4 数字摄像机：性能决定于摄像机的镜头、光学变焦和数码变焦、静态图像存储和视频输出。

第3章数字图像处理

1.采样，时间上的离散化；2.量化，幅度上的离散化。

3.1 信号处理基本术语

3.1.1 采样：时间上的离散化，按照一定时间间隔Δt在模拟信息x（t）上逐点采取其瞬时值。

量化：幅度上的离散化，振动幅值用二进制量化电平来表示。 3.1.2 采样长度的选择与频率分辨率：采样长度为采样时间的长短。采样时，要保证能反映信号的全貌，瞬态信号包括整个瞬态过程。

3.1.3 DFT和IDFT的定义 3.1.4 小波变换 3.2 图像数据压缩基础

3.2.1

色彩基本概念：色彩由色调、饱和度、亮度描述。色调是指某种颜色的性质和特点也就是颜色。饱和度指颜色色调的表现程度。亮度是指作用与物体表面的管线反射系数。

真彩色：是指图像中的每个像素值都分成R、G、B三基色表示。2八次方的三次方为16兆种颜色。

伪真色：每个像素是一个索引值或代码，查表后获取颜色。调配色：优于伪真色。

显示深度与图像深度的关系：显示大于图像屏幕色彩能较为真实的反映图像文件的色彩效果；显示等于图像,调色板一致时较真实，不一致时失真；显示小于图像色彩失真。

3.2.2 色彩空间及其变换

1.RGB颜色模式,红绿蓝。2.Lab颜色模式3.HSB颜色模式，基于人心里感受。4.YUV颜色模式。

3.2.3

图像数据压缩的可能性：压缩的目的在于尽可能的消除数据冗余。

冗余分类：1.统计冗余；2.信息熵冗余；3.结构冗余；4.知识冗余；5.视觉冗余。

3.3 图像压缩算法：其指标包括压缩比、算法的复杂性和运算速度、失真度、无损编码、有损编码。

3.3.1 信息熵编码：1.行程长度编码，也是游程编码，最简单之一；2.哈夫曼编码，常用方法之一；3.算术编码，其特点为信源符号的出现概率比较接近时，比哈夫曼编码高且实现比之复杂。

3.3.2 字典编码：1.字典编码的思想，一是查找正在输入的字符序列是否在以前输入出现过，有则用指针指向早期序列代替，二是创建短语字典,而后以索引号编码；2.LZW压缩算法，主要处理输入流、输出流、和一张字符表；3.LZW解压算法，

3.3.3 预测编码：利用先前像素灰度信息，来预测当前像素灰度，把没有预测对的预测值与实际像素之间的差经过熵编码后发送接收端，接收端通过预测值和差值还原图像。其可分为线性和非线性预测编码。

3.3.4 变换编码：是指将时域信号变换到频域信号进行处理的方法。

波形编码：预测编码、变换编码、矢量量化编码、都属于波形编码。

3.3.5 模型编码： 3.3.6 混合编码：两种或以上的编码方法对图像进行编码。如JPEG、MPEG 3.4 常用图形、图像文件：计算机中的两种类型的图矢量图和位映图像。

矢量图：用数学方法描述的一系列点、线、弧和几何形状，存放为矢量图格式。位映图像：也叫光栅图，由像素组成，存放为位图格式。

矢量图与位映图像区别：矢量图是图形指令，大小与复杂度有关，越复杂执行的指令也多显示越慢，但易于编辑便于传播，表现力受限。位映图像是图像点阵数据，大小与色彩深度、图的尺寸有关，越大显示越慢，但表现丰富，编辑复杂文件大不利于传播。

矢量图格式：.ps、.eps、.dpf、.ai、.swf、.svg、.wfm、.emf 位映图像格式：BMP基本位图和GIF、PNG当中的部分编码。

3.4.1 BMP 文件格式：windows中采用的位映图像格式，尾名.BMP或.bmp。其由位图文件头数据结构、位图信息数据结构、位图阵列组成。

3.4.2 GIF文件格式：以数据块为单位来存储图像，由表示图像图像的数据块、数据子块、显示图形图像的控制信息块组成，也就是GIF数据流。其采用LZW算法来压缩图像。

3.4.3 PNG文件格式：为替代GIF、TIFF的位图格式。采用LZ77派生的无损算法。其定义了关键数据块即标准数据块和可选辅助数据块，其中关键数据块包括文件头数据块IHDR、调色板数据块PLTE、图像数据块IDAT、图像结束数据块IEND。

PNG优缺点：其优点在于兼有GIF和JPEG的色彩模式,既能把图片压缩到极限便于网络传播又能保留所有与图像品质有关的信息的解决方案，更优化的传输显示（交错模式，先显轮廓再显全图），其透明特性有利于减小文件便于传播，在所有系统中显示一样的图像不像GIF会变化。缺点在于PNG不能多张存储一个文件中形成GIF的动画效果，无损格式不便于有损压缩式文件减小，不支持CMYK模式即出版印刷模式。 3.5 静态图形压缩标准

3.5.1 JPEG：是国际标准化组织ISO和国际电话电报咨询委员会CCITT关于静止图像编码的联合专家组的缩写。该标准可用于自然景象或任意连续色调图像的数字数据的压缩编码和解码。

JPEG标准的工作方式：1.顺序方式，图像被分成行列的小块，从左到右从上到下的压缩与还原一次完成。2.渐进方式，先低于质量要求进行编码，然后再提高一次编码等级进行编码，只传输需要改善质量部分的信息，重复若干次知道得到质量要。解码时先解出低质量全图而后附加改善质量信息二次解码。解码随意终止适合网络环境。

JPEG的基本系统算法过程：1.二维DCT变换；2.系数量化；3.编码模型与事件统一；4.熵编码；5.数据结构。

JPEG渐进方式的实现：通过普选择法、逐次选择法、阶梯选择法组合来实现。 JPEG的压缩效果：与被压缩图像特性有关。 3.5.2 JPEG2000：同JPEG相比的优势在于压缩率高、无损压缩、渐进传输、感兴趣区域压缩。文件格式为LWF 3.6 动态图形压缩标准

3.6.1 MPEG标准概述：标准化的意义，只有实现标准化，才能带动集成电路的大量生产，大幅度降低视频压缩成本，解决不同厂商设备的通用性。

3.6.2

MPEG-1标准：由MPEG-1的 systems、video、audio、conformance testing、software simulation五部分组成。

MPEG数据流分层结构:运动图像序列、图片组、图片、块、宏块、图片切块。 MPEG算法矛盾：满足随机访问最好算法是帧内编码，但此编码无法达到无损画质下高压缩比。所以采用预测和插值两种帧间编码技术。

MPEG视屏算法的基础：基于16*16块的运动补偿缩减时间冗余，基于变换域DCT的缩减空间冗余技术。

1.缩减时间冗余：MPEG考虑内帧I、预测帧P、内插帧三种画面。因为一是考虑随机访问的重要性，二是运动补偿插值可以显著降低位速率，是应用最广泛的减少时间冗余的方法。

2.缩减空间冗余：类似JPEG编码，采用混合编码、基于视觉加权的标量量化和行程编码等技术。其分三个阶段：一是基于DCT的正交阶段，二是对变换系数进行量化后把数据按Z形扫描顺序重组合，三十对变换系数按行程编码进行熵编

码已达到进一步压缩目的。

MPEG量化器设计主要考虑：视觉加权量化、帧内块和非帧内块的量化、可调整的量化器。 3.6.3 MPEG-2标准：其制定出发点是保持通用性，使用广泛的应用良玉、比特率、分辨率质量和服务。

MPEG-2同MPEG1的区别在于：一是能够有效的支持电视的隔行扫描格式，二是支持可分级的可调视频编码。

MPEG-2的9个组成部分：由MPEG-2的 systems、video、audio、conformance testing、software simulation、数字存储命令和控制扩展协议、先进声音编码ACC、系统解码器实时接口扩展标准、一致性控制测试。 3.6.4 MPEG-4标准：是为了满足交互式多媒体应用的标准，跟高的灵活和可靠性。其主要用于可视电话、视频邮件、电子新闻等。其优点在于对传输速率要求较低，利用很窄的带快，可以通过帧内重建，压缩和传输数据以求最小的数据获得最佳的图像。

MPEG-4的三个最重要特征：基于内容的压缩、更高的压缩比和时空可伸缩性。 MPEG-4同MPEG-1和MPEG-2的不同：MPEG-1、MPEG-2基于帧的规范，而MPEG-4基于媒体对象的规范，它管道了媒体对象的描述、表达、组织等问题 3.6.5 MPEG-7标准：即多媒体内容描述接口，其主要提供图像信息检索解决方案，将对现有内容识别专用解决方案的有限的能力进行扩展，特别是包含更多的数据类型。

MPEG-7的组成：MPEG-7的系统、描述定义语言、音频、视频、属性、参考软件、一致性。 3.6.6 MPEG-21标准：其目的是希望定义一个包含各种多媒体的框架，从而使各种多媒体有机结合，提供安全统一、跨平台、用于信息制作、发布、处理等功能的框架平台。

MPEG-21的实质：就是关键技术的集成，通过集成环境对全球数字多媒体资源进行透明和管理。

3.7 H.26X标准

3.7.1 H.261标准：CCITT的第一个国际视频压缩标准，主要满足电视电话电视会议。 3.7.2 H.263标准：其目的在于在现有的电话网上传输活动图像。其基于块的预测标差分编码系统。

H.263标准的两种编码模式：1.帧内编码，仅包含帧本身的信息，从而每帧可以编码；2.帧间编码，只对帧间预测误差进行编码，从而极大消除时间冗余。

H.263标准的可协商选择编码：1.无范围的运动矢量，、基于语法的算术编码方法、高级预测和PB帧。

H.263+中新增项：1.图像种类，有分级图像、增强的PB帧、用户定义的图像格式。2.编码模式，有先进的帧内码AIC、块效应消除滤波器DF、片结构SS、参考帧选择RPS、参考帧重采样RPR。 3.7.3 H.2标准：其主要目标和特点在于，提高压缩编码效率、增强网络适应能力。

H.2标准关键技术：

1.分层设计VCL：分为视频编码层负责高效视频内容表示；网络提取层NAL：负责以网络所要求的恰当的方式对数据进行打包传送。

2.高精度、多模式运动估计：H.2支持1/4、1/8像素精度的运动矢量。 3.4*4块的整数变换：对残差采用基于块的变换编码，但变换时整数操作不是实数运算。

4.统一的VLC：H.2中熵编码分两种，一种是对所有的待编码符号采用统一VLC(UVLC)，一种是采用内容自适应的二进制算术编码CABAC

5.帧内预测：不是在时间上，而是在空间域上进行的预测编码算法，可以消除相邻块之间的空间冗余，取得更有效的压缩。

6.面向IP和无线环境：

第4章音频信号和声卡

4.1 音频编码基础

声音，根据其内容可以分为波形声波、语音和音乐。波形声音，是数字化了的声音，包含所有的声音形式。音频信号，是指经过计算机处理过的离散化了的省略信号。 4.1.1 声音信号的特点：

1.声波是一种连续的波，连续性表现在，一是时间上的连续，二是幅度上的连续。声波具有普通波的特性，反射、折射、衍射。

2.声音的分类，按不同声音特性可分为不规则声音和规则声音。前者不包含任何信息的噪音，后者常分为语音、音乐、和音效。

语音：是指具有语言内涵和人类约定俗成的特殊媒体。音乐：是规范的、符号化的声音。音效：是指人类熟悉的其他声音。 3.声音的三要素，音调、音强、音色。 4.1.2 音频信号处理的方法

声音是连续模拟的信号，计算机要对声音时间轴和幅度两个方面进行离散化。

采样：是指计算机对声音在时间轴上的离散化处理。量化：是指计算机对声音在幅度上的离散化处理。

4.1.3 音频文件的存储格式

目前流行的种类：主要在计算机上的WAV格式，主要在UNIX工作站上的AU格式，主要在苹果机和SGI工作站上的AIFF和SND格式，和目前PC机上流行的mr和mp3格式。

WAV文件格式：称为波形文件格式。波形文件格式，支持存储各种采样频率和采样精度的声音数据支持声音数据压缩。

RIFF文件格式：一种为交换多媒体资源而开发的资源交换文件格式，前面两个字段表示文件类型，其中最主要的两个块是，文件结构块（包含波形重要参数）和声音数据块（包含实际波形数据）。

WAV外的常见音频格式：

1.MP3，文件即采用MP3文件格式压缩的文件。

2.AVI，一种符合RIFF文件规范的数以音频和视频文件格式。

2.RM，由RealNetworks开发主要用于低速广域网上实时传输活动视频影像。

4.1.4 声音质量的度量

1.可以用声音信号的带宽来衡量，一次为DAT > CD > FM > AM > 数字电话。

2.另外两种基本方法：一是客观质量，主要使用信噪比来度量，建立在度量均方差基础上，特点是计算简单，但不能完全反映人对语言质量的感觉；二是主观质量，常用的方法有平均意见得分MOS法，其5个等级有若干参与测试者平分得出。

3.数字语音通信语音质量分4类，广播质量、网络质量、通信质量、合成质量。 4.2 音频信号压缩技术

数字化的音频信号必须经过编码处理，以适应存储和传输的要求，并且在音频信号再生时得到做好的音质的声音。

一般压缩技术分为，有损压缩和无损压缩，而按照压缩方案不同，又可分为时间域压缩、变换压缩、子带压缩以及多技术混合压缩。 4.2.1 脉冲编码调制

脉冲编码调制，是概念上最简单、理论上最完善的编码系统，是最早研制成功、使用最广泛的编码系统，但一时数据量最大的编码系统。

声音数字化的两个步骤：一是采样，每隔一段时间间隔读一次声音的幅度；二是量化，把采样得到的声音信号幅度转化成数字值，可分为均匀量化和非均匀量化。 4.2.2 增量调制DM

增量调制DM是一种预测编码技术，是PCM编码的变形，PCM具有对任意变形进行编码的能力。DM对实际的采样信号与预测的采样信号之差的极性极性编码，将极性变成\"0\"和\"1\"这两种可能。

增量调制孙然简单单有两个缺点：一是会出现斜率过载，二是会产生粒状噪声。 4.2.3 自适应脉冲编码调制APCM

其是一种根据输入信号幅度的均方根值的变化来改变量化的一种编码技术。改变量化阶大小的方法：一是前向自适应，二是后向自适应。 4.2.4 差分脉冲编码调制DPCM

是利用样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术。其思想是根据过去的样本去估算下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与与预测值之差进行量化编码从而减少了表示每个样本信号的位数。 4.2.5 自适应差分脉冲编码调制ADPCM

其综合APCM的自适应和DPCM的差分特性，是一种比较好的波形编码。

ADPCM的思想是：1.利用自适应的思想改变量化的大小，即使用小的量化增量去编码小的差值，使用大的量化增量去编码打的差值；2.使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。 4.2.6 子带编码SBC

其思想是使用一组带通滤波器把输入音频信号的频带分成若干个连续的频段，每个频段称为子带。

采用对子带分别编码的好处：一是对每个子带信号分别进行自适应控制，量化阶的大小可以按照每个子带的能量电平进行调节；二是可以根据每个子带信号在感觉上的重要性，对每个子带分配不同的位数，用来表示每个样本值。 4.3 音频编码标准 4.3.1 CCITT G系列声音压缩标准

1.G711：为电话质量和语音压缩用于电话，使用μ律或A律的非线性量化技术。 2.G.722：为调幅广播质量的音频信号压缩制定，用于视听多媒体和会议电视。 3.G.723.1：采用多脉冲激励最大似然量化算法，用于可视电话及IP电话系统。 4.G.728：使用基于低时延码本激励线性预测编码，用于公共电话网。

5.G.729：使用8kbps的共轭结构代数码激励线性预测算法，多用于无线移动网、数字多路复用系统和计算机通信系统中。 CCITT G系列声音压缩标准比较

标准比特率编码技术应用制定日 G711 kbps PCM 公共电话网 1972 G.722 kbps SBC+ADPCM视听多媒体和会议电话 1988.11 G.723.1 5.3/6.3kbps MP-MLQ 视频电话及IP电话 1996.3 G.728 16kbps LD-CELP 公共电话网 1992.9

G.729 8kbps CS-ACELP 无线移动网、计算机通信系统 1996.3 4.3.2 MP3压缩技术

MP3是MPEG audio layer3的缩写，是一种超级声音文件的压缩方法，具有文件小、音质佳的特点。MPEG分视频和音频压缩，音频上分MPEG layer1、MPEG layer2、MPEG layer3三种，压缩比一次升高。MPEG 音频编码模式中，MP3功能强大，同样条件下，MP3需要的数据量小且音质要好。

MP3采用有损压缩，为降低失真度，其采用“感官编码技术”，即编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪声电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的MP3文件，并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然有损压缩，但以极小的声音损失换来较高的压缩比。 4.3.3 MP3产品： 4.3.4 MP4简介

MP4最初是音频格式，采用先进的音频压缩技术ACC，并且实现了版权保护。 4.3.5 乐器数字接口MIDI

MIDI是数字音乐电子合成音乐的统一国际标准，其目的是解决各种电子乐器间存在的兼容性问题。

MIDI定义的内容：定义了计算机音乐程序、音乐合成器及其他电子音乐设备交换音乐信号的方式，而其还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间的数据传输协议，可用于为不同乐器创建数字声音，能很容易的模拟钢琴、小提琴等传统乐器的声音。

计算机播放MIDI的两种合成声音：FM合成和波表合成。FM合成石通过多个频率的声音混合来模拟乐器的声音；波表面合成是将乐器的声音样本存储在声卡波形表中播放时从波形表中取出声音，所以更为逼真。

MIDI文件格式：CMF随声卡一起的音乐文件,与MIDI文件仅头文件不同；MIDI是windows使用的RIFF文件格式，称为RMID扩展名为.rmi 4.4 音频编码标准

4.4.1 声卡的发展历史

1.PC喇叭到ADLIB音乐声卡；2.Sound Blaster声卡；3.PCI声卡；4.USB声卡。

4.4.2 声卡的声道

1.单声道：比较原始的声音复制形式；

2.立体声：声音在录制时被分配到两个的声道；

3.四声道环绕声：其四个发音点位前左前、右后、左后、右及附加低音单元。 4.5.1声道：广泛用于传统电影院和数家庭影院。

4.4.3 声卡的功能：

1.录制、编辑和回放数字声音文件；

2.控制各声源的音量，并混合在一起，一遍数字化；

3.在记录和回放数字文件时进行压缩和解压缩，以节省存储空间； 4.采用语音合成技术，能够让计算机朗读文件； 5.MIDI接口

4.4.4 声卡的工作原理

主机通过总线将数字化声音信号以PCM的方式送到数模转换器（D/A），将数字信号变成模拟信号；同时又可以通过模数转换器(A/D)将麦克风或CD的输入信号转换成数字信号。

声音处理芯片，是核心芯片，是一个完整的音频子系统电缆，通过对音频信号的转换控制加工处理，在计算机上实现较理想的音响效果。其含有A/D、D/A转换器以及可重构数字

滤波器、设置增益值和衰减值的模拟混合器和数字混合器、并行总线接口，实现音频数据获取和播放的全双通道。

合成器芯片，其由总线接口、发声电源、定时控制三部分组成。 4.5 语音合成技术及应用

语音识别和语音合成技术时实现人和计算机进行语音通信所必须的关键技术。

语音合成：包含两个可能性：一是机器能再生一个预先存入的语音信号，就像录音机只是采用数字技术；一种是采用数字信号处理方法。 4.5.1 共振峰合成

基于共振峰理论的三种实用模型：1.级联型共振峰模型；2.并联型共振峰模型；3.混合型共振峰模型。 4.5.2 LPC参数合成

LPC参数合成其本质是一种实践波形的部门技术，目的是为了降低时间域信号的传输速率。需要与其他技术结合才能明显改善LPC合成质量。 4.5.3 语音合成的三个层次

按人类语言功能的不同层次可分三个层次：1.从文字到语音的合成；2.从概念到语音的合成；3.从意向到语音的合成。 4.5.4 语音合成技术的应用:1.人机对话；2.电话咨询；3.自动播音；4.助讲助读；5.语音教学；6.电话翻印。

4.6 语音识别技术的应用

语音识别技术的最终目标是人与计算机自由的交谈，及其能听懂人话。 4.6.1 语音识别技术的发展历史

其研究始于20世纪59年代，由AT&A Ball实验室实现Audry 10词识别语音系统，60年代提出动态规划和线性预测分析技术，后者解决了语言信号产生模型的问题，70年代动态规划技术得到进一步发展，动态实践规正技术成熟，提出了矢量量化和隐马尔可夫模型理论在实践上实现了基于线性预测倒谱和动态实践规正技术的特定人孤立语音识别系统，80年代HMM模型和ANN人工神经元网络在语音识别中的成功应用，90年代语音识别由实验室走向大众。 4.6.2 语音识别技术

其所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。

语音识别技术主要包括：特征提取技术、模式匹配准则、模型训练技术三个，另外还涉及到语音识别单元的选取。

1.语音识别单元的选取：选择识别单元式语音识别研究的第一步，其有单词（句）、音节和音素三种。单词单元主要用于中小词汇识别系统，不适合大词汇系统；音节多见于汉语语音识别，因为汉语为单音节语言；音素中英语音识别都用。

2.特征参数提取技术：常用的声学特征有线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC和感知线性预测PLP

3.模式匹配和模式训练技术：模式匹配时根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。模型训练是指按照一定的准则，从大量已知模式中获取该模式本质特征的模型参数。 4.6.3 语音识别系统的类型

语音识别系统的几种分类方式：按对说话人的依赖程度可以分特定人非特定人语音识别系统；按对话人说话方式可以分孤立字词语、连接词、连续语音识别系统。按词汇量大小可分小词汇量、中等词汇量、大词汇量和无限词汇量语音识别系统。

1.特定语音识别系统：可以训练特定人的系统来识别更大的词汇表，但也存在：需要彻底的训练，因为要把单词输入系统重复很多次；为识别大词汇表中的单吃需要大量的存储；为识别单词进行的搜索时间更长。

2.非特定人语音识别系统：可以识别任何用户的语音。 3.孤立词语语音识别系统：一次只提供一个单词的识别。 4.链接词语音识别系统：识别句子。

5.连续语音识别技术：主要的两个问题：一是分割和标志过程，把语音段标记成代表音素、半音节、音节和单词更小的单元，二是为跟上输入语音并实时地识别词序列所需的计算能力。

连续语音识别技术的三个组成部分：一是数字化、幅度归一化、时间归一化和参数归一化：二是分割并把语音段标记成在基于知识或基于规则系统上的符号串：三是设计用于识别词序序列而进行语音段匹配。

4.6.4 语音识别的应用:1.语音邮件的集成；2.数据库的输入和询问应用；3.语音命令和控制应用。

第5章光盘存储

5.1 光盘的发展历史

CD-DA过度到CD-ROM两个重要问题：一个是计算机如何寻找光盘上面的数据，二是CD作为计算机的存储器时要求错误率远小于声音数据的错误率。

光盘存储的主要历史事件：

1.1980，PHILIPS、SONY 制定CD-DA标准；

2.1982,SONY 第一台CD播放机 CDP-101，第一张 CD； 3.1984,SONY 第一台汽车CD播放机和便携式CD播放机； 4.1985,PHILIPS、SONY定义了 CD-ROM标准； 5.19PHILIPS、SONY定义了交互式CD-I标准；

6.1990,PHILIPS、SONY将 CD-ROM 标准扩展为CD-ROM XA 和CD-R标准； 7.1994,CD-ROM成为家用计算机标配； 8.1995,可擦写CD和 CD+标准；

9.1995.9,SNOY 和其他8家公建立了DVD格式统一标准。

不同格式光盘之间的主要差别：

1.CD-DA盘存放数字化的音乐节目，可以播放74分钟； 2.CD-G存放静止图像和音乐节目；

3.CD-V存放模拟的电视图像和数字化声音；

4.CD-ROM盘存放数字化文、图、声、像等，650MB，动画、动静态图像； 5.CD-I存放数字化的文、图、声、静止像、动画等； 6.CD-I FMV存放数值化的电影、电视节目等； 7.卡拉OK CD 存放数字化的卡拉OK节目；

8.Video CD存放数字化的电影、电视节目，70分MPEG-1数字影视节目； 9.DVD存放高清晰数字化的电影节目等。

技术皮书说明标准盘名应用目的播放时间显示图像红皮书 CD-DA 存储音乐节目 74分钟动画动静态图像

黄皮书 CD-ROM 存储文、图、声、像 650MB 动画静态图像绿皮书 CD-I 存储文、图、声、像 760MB 橙皮书 CD-R 读写文、图、声、像 Video CD 存储影视节目 70分钟MPEG-1 MPEG-1质量红皮书+ Video-CD 存模拟电视数字声音 5~6分钟电视20分钟声音 CD-Bridge Photo CD 存储照片静态图像蓝皮书 LD 存储影视节目 200分钟模拟电视图像 5.2 CD盘的结构

CD盘主要由保护层、反射激光的铝制反射层、刻槽和聚碳酸酯衬垫组成。

CD盘的光道与软磁盘磁道的不同：磁盘存放数据的磁道是同心环，磁盘片转动角速率是恒定的，用CAV表示，所以不同磁道的线速度是不同的，同心圆结构虽然简单，但外磁道存储密度低利用率不高。CD盘采用螺旋型光道，长约5km，其转动线速度恒定，盘片可充分利用，但随机存储特性变差。 5.3 CD-ROM盘制作过程

在制作原版盘时，是用编码后的二进制数据去调制聚焦激光束，如果写入数据为0就不让激光通过，为1就使其通过。原版盘的玻璃盘上面涂有感光胶，曝光的地方经过化学处理后就形成凹坑，没有曝光的地方保持原样，再经过化学处理后的玻璃盘表面上镀层金属，制作成母盘，然后用母盘压制DVD光盘。 5.4 CD-ROM光盘与驱动器

5.4.1 CD-ROM标准 CD-ROM标准即黄皮书。红皮书与黄皮书相比红皮书对2352字节的用户数据进行了重新定义，解决了CD-ROM作为计算机存储器的两个问题，一是计算机的寻址问题，二是误码率的问题。

5.4.2 CD-ROM驱动器

1.基本知识：CD-ROM驱动器即光驱，是一种读取光盘盘片数据的一种设备。

2.工作原理：光驱常见部件有光盘托盘、托盘开关、耳机孔、和音量控制按钮。其背面有四孔电源线，一条数据传输线和一条链接到声卡的线。

光驱三种数据接口：一是早期的AT bus接口，二是主流的IDE接口，三是SCSI接口。激光头主要组成：激光发生器、半反射棱镜、物镜、透镜和光电二极管。 5.5 DVD驱动器

5.5.1 DVD的物理特性

DVD提高容量的两种方法：一种是减少光道距离和凹坑尺寸；一种是增加数据记录层的层数。

DVD与CD的主要区别：但DVD光道之间的距离由原来的1.6微米缩小至0.74微米，记录信息的凹凸坑长度由0.83微米缩小至0.4微米，且可以制作到双面双层。

DVD与CD的物理特性区别 CD ：直径120mm，厚度1.2mm，轨道间距1.6微米，最小坑长0.834微米，波长780nm目标镜头的NA*0.45,容量0.65GB

DVD：直径120mm，厚度0.6mm，轨道间距0.74微米，最小坑长0.4微米，波长650nm目标镜头的NA*0.6,容量4.7GB

DVD的不同参数：

DVD-5，单面单层4.7GB DVD-10双面单层9.4GB

DVD-9单面双层9.4GB DVD-18双面双层17GB 5.5.2 DVD视频编码技术：采用MPEG-2压缩技术。 5.5.3 DVD音频格式及编码技术：音频采用杜比AC-3技术，包括立体声和5.1环绕立体声声道。

5.5.4 DVD盘片的生产过程：1.数据处理；2.母盘刻录和压模制备；3.复制；4.黏合,分热黏合和紫外线黏合。

5.5.5 DVD播放机：其内部有5部分，托盘、电源电路板、影音解码器（MPEG-2解码器）、功能控制电路板、影像音频转换输出板。

DVD/CD信号拾取系统主要的4种方案：1.单激光头双聚焦镜方案；2.单激光头单聚焦镜双聚焦点方案；3.双激光头双聚焦镜方案；4.单激光头双波长激光方案。

DVD的伺服控制电路包括光学和机械等元件，分为：1.聚焦伺服；2.循轨伺服；3.主轴电机伺服；4.信号处理系统。

5.5.6 DVD区码：六个区，两种区码控制系统，一是RPC 1类型，二是RPC2 5.6 CD-RM驱动器

5.6.1 CD-R盘分为CD-MO可擦写磁光盘和CD-WO一次写入CD-R盘两种盘 5.6.2 CD-RW是CD-R的补充，具有兼容CD-R刻录和数据存储两大功能。 1.CD-RW结构同CD-ROM基本相同，只是在盘中增加了可改写的染色层。 2.刻录方式和存储格式：主要有整盘刻录、轨道刻录写和多段刻写。

3.速率和质量:速率有刻录速率、写入速率和读取速率3个指标，前两个为其主要指标。 4.接口和规范：接口有IDE、SCSI、并行接口和USB四种。 5.6.3 COMBO驱动器：多功能光盘驱动器。 5.7 下一代光存储技术

5.7.1 蓝光技术： 5.7.2 HD DVD 5.7.3 EVD、FVD和NVD

EVD的主要创新在于：1.音频视频的滤波变换、编码解码优化方法，改善音响画面素质及增加数据压缩比特率；2.承袭自SVCD的“数字视频上动态叠加字幕”方法，可令字幕以256色显示。

EVD技术特点：视频方面，标准清晰度外还有自VCD质量到全高清8种不同视频质量；音频方面，自主产权EAC音频压缩技术；字幕方面，256色可浮动可透明显示。

5.8 光驱应用技术:1.True X技术；2.人工智能纠错技术；3.自动平衡系统；4.双动态抗震悬吊想系统；5.数字伺服系统技术

第六章多媒体计算机软件

多媒体软件的主要任务:是使用户能够方便、有效地组织和调整多媒体数据，让多媒体硬件去处理相应的媒体数据，实现音频、视频同步，真正实现多媒体的信息表达方式。 6.1 多媒体软件的分类

多媒体软件分为5类：驱动程序、支持多媒体的操作系统或环境、多媒体数据库准备软件、多媒体编辑创作软件和多媒体应用软件。 6.2 多媒体驱动程序

驱动程序及其作用：多媒体系统中直接和硬件打交道的软件称为设备驱动程序，它完成设备的初始化、设备各种操作以及基于硬件的压缩和解压缩、图像快速变换等基本硬件功能调用。

设备驱动程序课分为两类：应用程序装载的可装载驱动程序和可自动运行与装卸的驻留驱动程序。

在Windows环境下，驱动程序的装载时通过Windows的初始化配置文件来完成的。 VMMA是Windows运行环境的核心，它提供创建管理虚拟机的各种服务。虚拟设备驱动程序用于VMM的设备性，它管理计算机的硬件设备和驱动程序，确保应用程序之间不会相互干扰。Windows的动态链接库则为所有的Windows应用程序提供系统调用服务和系统图形资源。 6.3 多媒体操作系统

多媒体操作系统在驱动软件之上，是多媒体软件的核心，其主要任务和特征如下：

负责多媒体环境下多任务的调度;保证音频、视频同步控制以及信息处理的实时性;提供多媒体信息的各种基本操作管理;具有对设备的相对性与可扩展性。

目前的操作系统在支持连续媒体应用中还面临着许多的问题来自两方面：1.操作系统缺乏实时性支持，只能提供更好的计算能力；2.缺乏基于服务质量的管理，以及系统能够保证现有应用的服务质量。

6.3.1 Windows 9x/ME对多媒体的支持 Windows 95具有的多媒体功能包括：

对音频、视频和图像的压缩服务，对软件开发的开发接口

Video for Wondows Runtime 使得在Windows 95机器上运行数字视频成为可能增强的MIDI提供多达16个通道和多种设备的支持

Sound Recorder让用户通过麦克风、MIDI接口甚至CD记录自己的声音 CD Player 允许播放CD音乐

多任务可细分为进程与线程的交互作用和两种任务模型：协作的和抢先的。 Windows 98比 Windows 95的优点体现在以下几个方面：

1.真正的Web集成----活动桌面、频道栏、新闻组、联机会议和个人Web服务器使得网络应用更加出色。

2.娱乐丰富多彩

3.新硬件的支持------增强三维图形及视频回访处理

4.联机广播查看------可从Web 或Intranet接收网络流式多媒体内容，可同步处理视频、音频和图形数据，还可收听收音机或将电视新闻频道直接引入

5.桌面主题-----不同的桌面主题对应着从视图到声音多方面不同的系统使用风格，不但有趣，还能体现用户个性 Windows Me 中的新功能

1.My Pictures 文件夹：类似我的文档文件夹，方便打开和管理图片文件。 2.图片的浏览和处理：集成了简单快速的图片浏览器。 3.影音欣赏的中心——媒体播放器：WMP7.0播放器。 4.家庭影院——DVD播放器：自带的DVD播放器。

5.影像制作——WMM：windows movie maker缩写，入门视频制作工具。 6.3.2 Windows NT多多媒体的支持

Windows NT 支持多种多媒体设备，包括：1.采样和重够模拟语音信号的波形音频硬件；2.链接到外部音乐设备的MIDI接口；3.计算机自身板上MIDI合成器；4.数字化单帧和连接视频信号的视频捕获设备；5.CD播放器、视盘播放器和游戏棒等相关设备。

WINMM是个用户模式动态链接库，作为应用程序和实际体硬件的厂商提供的驱动程序之间的转换层。WINMM为了完成它的工作，依赖于以下3种驱动程序：1.MCI驱动程序；2.低级音频驱动程序；3.内核模式设备驱动程序

6.3.3 WindowsXP 对多媒体的支持 Windows XP的数字媒体处理功能是通过媒体播放器、个人屏保和快速图片浏览等应用程序来实现的。

Windows XP提供了WIA系统，让用户可以方便地在任何图像处理软件中直接获取数码相机或扫描仪中的图片资源。

WindowsXP 还提供了快速图片浏览功能，可以快速浏览绝大部分的图片格式。 6.3.4 Windows 2003对多媒体的支持

Windows2003服务器提供功能强大的企业流式数字媒体服务----Windows多媒体服务。 Windows 多媒体服务提供了自动编程的能力。 6.3.5 Windows Viste 对多媒体的支持

Windows Viste主要了以下功能：1.整合了Windows多媒体中心平台；2.在音频方面，音频驱动工作在用户模式，提高了稳定性，同时速度和音频保真度也提高了不少，内置了语音识别模式，带有针对每个应用程序的音量调节；3.内置了Windows Medio Player 11；4.在系统任务栏里的缩略图播放视频 6.3.5 Linux对多媒体的支持：

1.XMMS-----Linux下的MP3player.；2.GNONM CD player-----一款基X-Windows的CD播放软件；3.Realplayer for Liunx------RM格式的影音文件是网上广为流传的电影格式。 6.4 多媒体数据准备软件：是指用于采集多种多媒体数据的软件，如声音录制、编辑软件等 6.4.1 环境下声音数据的采集

Windows 环境中可以通过它提供的MCI命令来控制声卡。

要想用波形音频函数来控制声卡，必须要经过以下步骤：1.打开波形输入设备；2.为采样数据分配缓冲空间；3.启动波形输入设备；4.关闭语音输入设备。 6.4.2 Windows环境下视频数据的采集

数字视频数据时通过对模拟视频信号的音频、视频信号同步捕获并数字化而得到的。视频图像输入的两种方式：一是捕获卡加模拟摄像头，二是基于USB接口数字摄像头。 1）VFW简介：

VFW是Microsoft公司1992年推出的关于数字视频的一个软件包，它能使应用程序从传统模拟视频源得到视频剪辑，采用ACI标准。

VFW主要有以下6个模块组成：

1.AVICAP.DLL----包含了执行视频捕获的函数，给AVI文件I/O和视频、音频设备驱动程序提供一个高级接口

2.MSVIDEO.DLL-----用一套特殊的DrawDib函数来处理屏幕上的视频操作 3.MCIAVI.DRV-------包含对VFW的MCI命令的解释器

4.AVIFILE.DLL-------支持由标准多媒体I/O函数提供的更高的命令来访问AVI文件 5.压缩管理器（ICM）-----管理用于视频压缩--解压缩的编解码器

6.音频压缩管理器（ACM）-----提供与ICM相似的服务。它适用于波形音频 2）AVICap编程简介 AVICap支持实时的视频流捕获和单帧捕获并提供对视频源的控制。

用AVICap窗口类创建的窗口被称为“捕获窗”。捕获窗具有以下功能：

1..将一视频流和音频流捕获到一个AVI文件中 2.动态地同视频和音频输入器件连接或断开

3.以Overlay或Preview模式对输入的视频流进行实时显示

4.在不回时可指定所用的文件名并能将捕获文件的内容复制到另一个文件 5.设置捕获速率

6.显示控制视频源、视频格式、视频压缩的对话框 7.创建、保存或载入调色板

8.将图像和相关的调色板复制到剪切板

9.将捕获的一个单帧图像保存为DIB格式的文件

AVICap在显示视频是提供的两种模式：

1.预览模式-----该模式使用CPU资源，视频帧先从捕获硬件传到系统内存，接着采用GDI函数在捕获窗中显示

2.叠加模式------改模式使用硬件叠加进行视频显示，叠加视频的显示不经过VGA卡，叠加视频的硬件将VGA的输出信号与其自身的输出信号合并，形成组合信号显示在计算机的监视器上 3）视频数据采集过程：

（1）创建视捕获窗口，调用函数capCreatCaptureWindows()； (2) 设置视频捕获的相关回调函数：

capSetCallbackOnError()---设置错误回调函数 capSetCallbackOnStatus()---设置状态回调函数 capSetCallbackOnFrame()----设置帧预览回调函数

capSetCallbackOnVideoStream()----设置返回视频帧相关信息的回调函数（3）搜寻视频设备并连接相关设备

capGetDriverDescription()----获取设备版本信息 capDriverConnect()-----连接设备驱动程序

（4）获取连接设备当前的参数设置并根据需要进行修改 capCaptureGetSetup()----获取当前设置 capCaptureSetSetup()-----修改当前设置

capDlgVideoForeat()----弹出Video Format对话框 capDlgVideoSource()----弹出VideoSource对话框（5）设置预览帧率

capPreviewRate()------设置Preview模式的显示速度 capPreview（）----启动Preview模式（6）开始捕获数据

capCaptureSequenceNoFlie()-----开始捕获视频序列到另一缓存中，回调函数capSetCallback-OnVideoStream()负责处理缓存中的视频数据 capCaptureSequence（）----开始捕获视频序列到指定文件中 6.5多媒体创制工具：多媒体数据库和创作工具为多媒体应用提供资源和信息加工，如声音录制、编辑、视频采集、剪接、动画生成和网页制作等。 6.5.1 多媒体创制工具的评测标准

评测一个多媒体创制工具的标准有如下：

1.编程环境；2.各种媒体数据输入能力；3.动画制作与演播；4.应用程序间的动态链接；5.制作片段的模块和面向对象化；6.易学习、已使用；7.多媒体创作工具应设计成操作简便、编辑时易于修改，所见即所得，菜单和工具布局合理，使用户掌握了基本的操作技能后，能尽快地进行工作；8.良好的扩充性。 6.5.2 多媒体创作工具的分类

从系统工具的功能角度划分，多媒体创作工具大致可以分为4类：媒体创作软件工具、多媒体节目写作工具、媒体播放工具以及其他各类媒体处理工具。

1.媒体创作软件工具：用于建立媒体模型产生媒体数据

2.多媒体节目写作工具：提供不同的编辑、写作方式

3.媒体播放工具：可以在计算机上播出，有的甚至能在消费类电子产品中播出 4.其他各类媒体处理工具 6.5.3 音频处理软件

音频数据处理软件是为多媒体计算机应用录制、编辑、修改数字化声音的工具软件。通常以“wav”为扩展名，称为WAV格式文件。一个完整的数字化声音处理软件应包括如下功能：

1.音频数据的录制，应能选择不同的录音参数，包括多种采样频率、多种采样大小、录音声道数，以及他们的不同组合；

2.音频数据的编辑和回访，对录制或通过打开声音文件得到的数字化声音数据进行播放选快、复制、删除、粘贴、声音混合等多种编辑；

3.音频数据的参数修改，包括采样频率的修改和格式转换；

4.效果处理，包括逆向播放、增减回声、增减音量、增减速度、声音的淡入淡出、交换左右声道等；

5.图形化的工作界面，应能按比例吧实际的声音播形显示成图形，做了修改后，应能实时显示其变化；

6.非破坏式修改，在内存中修改，不修改原文件 7.能以WAV格式文件存储数字化声音数据 6.5.4 图形、图像及动画制作与编辑软件

1. 动画创作于编辑软件的功能要求

动画师多媒体计算机技术处理的重要媒体。与传统的计算机动画不同，多媒体计算机动画不仅要求有图形的动态变化，而且要求至少有与动作相一致的声音，为增强表现效果，常常还需要有相关的背景音乐。

计算机动画创作于编辑软件的基本功能要求包括：1.造型，即构造目标物体的骨架；2.材料库；3.动态编辑；4.动态生成；5.声音同步。

2.多媒体编辑软件的分类

按其编辑成的应用软件的运行方式来分，可以分成：

1.运行时需要整个软件来解释程序的解释型对媒体编辑软件；

2.线运行一定的编译，运行时只需一个解释程序来解释的半编译型多媒体编辑软件； 3.可把程序完全变成可执行程序的编译型多媒体软件。按其应用领域及价格来分，可以分成：

1.应用于影视创作等专业领域的高档多媒体编辑软件 2.应用于教育、娱乐的产品创作中的中档多媒体编辑软件 3.用于普通商业介绍、剪报创作的低档多媒体编辑软件按其编辑媒体的手法来分，则可分成：

1.利用描述各种媒体的特性、体的播放和运动方式的描述语言来实现程序流程的基于描述的多媒体编辑软件

2.按时间顺序来表达整个多媒体事件中各种媒体出现的顺序及其播放的基于时间轴的多媒体编辑软件

3.运用人类整理资料卡的方法 4.书结构的多媒体编辑软件 5.流程图结构的多媒体编辑软件 5.5.5 网上音频、视频文件制作：

流式技术：是指将音频文件和视频文件变换为若干个数据小包，在网上像流水一样传送。

6.6 多媒体应用软件

常见的应用软件有以下几种：1.各种信息管理软件；2.办公自动化系统；3.各种文字处理软件；4.各种辅助设计软件以及辅助教学软件；5.各种软件包。

多媒体应用软件的开发：是指多媒体软件开发人员在多媒体核心软件的基础上，借助多媒体软件开发工具编制多媒体应用软件的过程。

多媒体计算机软件工程师就成为整个工作的主导者，他们的主要任务是用多媒体工具软件按照剧情构思编制程序和组织多媒体数据，以形成完整的多媒体应用程序。

多媒体计算机软件开发者在编制程序时应注意：首先要考虑程序运行的操作系统环境，然后程序设计者还得确定用于编程的工具。

根据应用程序的特点和编程个人的风格，可以选择程序设计语言、多媒体编辑软件或多媒体数据库系统作为基本的编程工具。

在Windows环境下Microsoft 公司的Visual Studio.NET是对媒体软件开发人员优选的程序设计语言。 6.7 多媒体播放器

多媒体播放器是指那些能够回放不同编码格式音视频文件的软件。这类软件一般分为两类：一类是运行在个人计算机上并用来播放本地存储的音视频文件的播放器，另一类就是播放基于Web的音视频流的播放器。 6.8 Microsoft DirectX

DirectX 是由Microsoft公司开发的用途广泛的API,由C++编程语言实现，遵循COM.。 DirectX是一组低级“应用程序编程接口（API）”，可以为Windows程序提供高性能的硬件加速多媒体支持，增强计算机的多媒体功能。

DirectX使程序能够轻松确定计算机的硬件性能，然后设置与之匹配的程序参数。 6.8.1不同版本DirectX的特性

DirectX 10的主要优势是更好、更合理地利用GPU资源从而降低对CPU的依赖，主要从以下三方面来解决：提高绘图效率、提高GPU利用率、指令优化。 6.8.2 Microsoft DirectSound简介

Microsoft DirectSound是DirectX API的音频组件之一，它为程序和音频适配器的混音、声音加速和声音捕获功能之间提供链接。

1..DirectSound的主要优点：1.即时查询硬件特性的能力，并根据当前计算机硬件配置来决定最好的解决问题的方法；2.通过属性集，可以使用那些尚未由DirectSound直接支持的硬件新特性；3.音频流的低延迟时间混音，保证了程序的快速响应；4.实现3D音效；5.音频捕获支持。

2..DirectSound的体系结构：DirectSound的音效回放部分建立在IDirectSound和IDirectSoundBuffer COM接口之上，后者用于控制音频缓冲区。

3.DirectSound中的音频数据格式：在DirectSound和DirectSoundCapture中均要用到频率恒定的波形音频数据。

4.音频回放：DirectSound中的音频缓冲区对象代表了一个含有音频数据的缓冲区。 5.音频捕获：DirectSoundCapture对象用来查询捕捉。

6.硬件抽象及模拟：DirectSound通过音频设备驱动提供硬件抽象出HAL，其功能有：获得和释放音频硬件的控制权、描述音频硬件的能力：当音频硬件可用时完成指定操作；当音频硬件不可用时，向操作申请者返回错误。

7.系统集成

6.8.3 Microsoft DirectShow简介

Microsoft DirectShow为多媒体流的捕获与回放提供了强有力的支持。

参与数据处理的各个功能模块叫做过滤器（Filter）：Filter大致分为三类：Source Filter(源过滤器)、Transform Filter(转换过滤器)和Reading Filter(表现过滤器)。 6.8.4 DirectShow应用程序的开发：

1.COM Library的调用；2.Filter Graph管理器接口；3.创建Filter Graph Manager接口；4.创建Filter Graph；5.使用DirectShow的事件响应机制。 6.8.5 DirectShow应用示例

要利用Media Detector和Sample Grabber Filter实时在线获取视图像帧，主要包括以下4个步骤：1.创建媒体监视器；2.设置回调方法；3.编写回调函数；4.运行过滤器图播放视频流。

第7章多媒体文档的组织与设计

7.1 超文本和超媒体

7.1.1 超文本与多媒体概述

超媒体系统：基于超文本信息管理技术的系统称为超文本系统。其是作为一种复杂的信息管理系统而出现的。其准许人们从各种媒体创建、互联和共享信息。

超文本系统：是由结点和链组成的，其提供非线性信息的访问方式，是一种新的访问信息手段的数据库系统。

超文本：有信息结点和表示信息结点相关性的链构成一个具有一定逻辑结构和语义的网络，结点为多媒体数据。其目的是提供一个复杂的、具有丰富链接和交叉引用的信息系统。

超媒体:包含多媒体的超文本称为超媒体。其目的是为了生产巨大、复杂、丰富链接和交叉引用的信息体。

7.1.2 超文本系统的基本特点：

超文本系统：基于超文本信息管理技术的系统。其基本特征有以下几个方面：

1.图形用户接口。在浏览器和图表的帮助下，用户可以通过点击链接并阅读结点的内容来获取大量的信息。

2.向用户给出一个网络结构动态总貌图，使用户在每一时刻都可以得到当前结点的邻接环境。

3.在超文本系统中一般使用双向链接，这种链接应支持跨越各种网络。 4.包含管理结点和链信息的引擎。用户可以根据自己的需要动态的改变网络周边各的结点和链，以便方便快速的浏览。

超文本系统的组成：由结点和链组成。结点通过链来连接。

结点的类型有：文本结点、图形和图像结点、动画和视频结点、音乐和数字化语音结点、混合媒体结点、动作与操作结点、组织型结点、推理型结点。

链的结构分为：1.链源，是导致结点信息的原因；2.链宿，链的目的所在即结点；3.链的属性，是指链的版权和权限等信息。

链按用于导航和信息检索分的种类：

1.基本链：用来建立结点之间的基本顺序。 2.移动链：可以简单的移动到相关的节点。 3.缩放链：可以扩大当前结点。

4.全景链：返回超文本系统的高层视图，与缩放链相对应。

5.视图链：依赖于用户使用的目的，常常被用来实现可靠性和安全性。链按超媒体结点和链的组织与推理分的种类

1.索引链：实现结点中点和域之间的链接。 2.Is-a链：用于组织结点。

3.Has-a链：用来描述结点性质。

4.蕴含链：用于在推理中事实的链，通常等价于规则。

5.执行链：触发多媒体系统与高级程序设计接口，而执行一段代码的按钮。宏结点：通过链连接在一起的结点群。

子网：宏结点作为超文本网络的一部分称为子网。

7.2 超文本的发展历史和典型的超文本系统

7.2.1 超文本的发展历史

现在超文本与传统字典形式的超文本的区别：访问速度快，文献容纳信息量大，以及结点和链可以动态的改变。 7.2.2 典型的超文本系统：Augment/NLS、KMS、Guide（支持替换链、记事链、引用链、查询链）、NoteCards、Hypercard。 7.3 超文本系统的用户接口

解决迷失和认识开销的方法：图像浏览器、Web视图、地图和概貌图、路径和形迹。 7.4 HTML语言的简介

万维网WWW：是一个信息资源网络

万维网使信息资源广泛利用所凭借的三个技术；1.指定网上信息资源地址的统一资源定位器，2.存取资源的协议，3.在资源之间很容易浏览的超文本技术。

HTML及其的作用：HTML实一种组织文档的语言，可以用来编排文档、创建列表、建立连接、插入声音和影视片断等。

7.4.1 HTML发展历史 7.4.2 HTML语言结构

HTML是一种没有格式的文档，也称ASCII文件，可以使用文本编辑器来编辑。一个mtml文档通常由文档头head、文档名title、表格table、段落paragraph和列表list组成。

文档元素：简称文素，是指html文档的组成元素 HTML标签：其由<、标签名、>组成 HTML分成文档头、正文分别用...和...来标记 7.4.3 HTML标签和属性

1.HTML标签：...标签告诉浏览器这中间的文件是用html编写的。 2.文档头标签：...之间包含的是HTML文档名； 3.文档名称标签:之间包含具体的HTML文档名称。 3.正文标签<BODY>：之间是正文部分。 7.4.4 超链接：即超文本链接的简称，或简称链接。是HTML最强大、价值的功能。超链接分为：文本链接和文档内部之间的链接。7.4.5 用HTML实现多媒体 7.5 XML简介7.6 SMIL及其应用示例7.6.1 SMIL简介 7.6.2 SMIL的基本语法规则 7.6.3 应用设计 7.6.4 应用示例7.7 设计超文本的工具7.7.1 javascript 7.7.2 动态网页设计：ASP技术、JSP技术、PHP技术、 7.7.3 Ajax技术：是几个技术的组合,有基于XHTML和CSS标准的表述；使用Document Object Modle 进行动态显示和交互；使用XML HttpRequst与服务器进行异步通信；使用JavaScript绑定一切。第八章多媒体数据库概述8.1 多媒体数据的特点多媒体数据的特点：1.数据量、2.数据长度、3.数据模型、4.数据定义及操作、5.数据的时间特性和版本概念、6.数据传输。多媒体数据库应具有以下功能：1.支持图形、图像、动画、声音、动态视频、文本等多媒体字段类型及用户自定义类型； 2.支持定长数据和非定长数据的集成管理；3.支持复杂实体的表示和处理，要求有表示和处理实体间复杂关系的能力，有保证实； 4.完整性和一致性的机制；5.支持同一实体的多种表现形式； 6.既有良好的用户界面；7.支持多媒体的特殊查询及良好的处理接口； 8.支持分布式环境。 8.2 多媒体数据库的发展实现多媒体数据库系统的途径可以分3类：扩充关系数据库方法8、面向对象的方法、超文本方法。多媒体数据库的研究分为两大类型： 1].面向对象数据库的研究1.研究方法：三种实现面向对象数据库的方法：1.扩充关系数据库模型；2.在面向对象语言中嵌入数据库功能形成面向对象数据库；3.开发全新数据库模型，从底层实现面向对象数据库系统。2.理论及形式化研究；3.面向对象数据库的实验系统和商品化系统：因为其本身存在缺乏通用数据模型、理论基础、有好的用户界面和工具环境、有利的查询优化。 2].对关系数据库进行扩充开发一个通用的多媒体数据库，还应该重点研究一下问题：1.加强合理语义模型技术，特别是视频和图像的语义模型 2.设计有效的多媒体数据的索引和组织方法 3.建立适合于媒体同步和集成的数据模型 4.加大多媒体查询语言的研究5.对物理储存管理设计出有效地数据储存模式，以满足多媒体数据实时性的要求 6.分布式多媒体数据库的管理8.3 多媒体数据库的数据模型数据模型通常由数据结构、数据操作和完整性约束三部分组成。对象分为两类：一类是与数据类型、内容、性质有关的对象；另一类是与数据之间关联有关的对象。数据库主要有两大操作：检索和更新多媒体数据具有复合性、分散性、时序性的特点复合性、分散性、时序性的特点对数据模型的要求：支持丰富的数据类型及相应的处理；说明不完备信息；扩充个别对象的定义到其类型定义之外；编组来自不同数据库的数据并加以一致性处理；描述结构化信息；模拟对象内部的概念与外部表达；支持上下文无关与有关的引用；支持数据共享；支持版本的生成和控制；支持系统预定义操作和用户定义操作；支持对象的同频与集成。多媒体数据模型可以分为3类：关系数据模型、面向对象数据模型和超文本数据模型 1.关系数据模型的优点：1.关系模型概念单一，结构简单，实际上就是一张二维表 2.关系模型的集合处理能力强 3.关系吗小的数据性强 4.关系模型有严格的数学基础 5.关系模型有标准的语言增加对非格式化数据处理的能力技术策略:1.关系数据库管理系统技术和操作系统中文件系统的功能相结合，实现对非格式化数据的管理；2.将关系元组中格式化数据和非格式化数据装在一起，形成一个完整的元组，存放在数据页面或数据也组中；3.将元组中非格式化数据分成两部分，一部分是非格式化数据本身，一部分是对非格式化数据的引用。2.面向对象数据模型1）数据抽象：即类与子类的概念及相关性； 2）封装数据及其操作一体化；3）继承：及父类属性及其操作可以向子类传递；4）消息传递：即客观事物之间的相互作用用同一的消息传递的方法描述.3.超媒体数据模型 8.4 多媒体数据库与查询8.4.1 查询语言多媒体的三种查询方法：关键字查询、可视化查询、语义查询 8.4.2 全文检索技术全文检索包括以下几方面的技术问题：1.检索的快速响应;2.如何建立索引库;3.如何压缩索引数据;4.提供完整、丰富的检索操作手段;6.超文本处理;7.分布式网络文档的检索处理; 对多媒体对象的检索方法可以分成以下4种：按标识符检索;按条件语句检索;借助例子的相似性检索;按内容检索.8.4.3 万维网文档的全文检索技术分布式、数据量巨大、动态性、复杂的标识符处理。8.4.4 基于内容的信息检索内容的检索，有如下特点：从媒体内容中提取信息线索、近似匹配、大型数据库的快速检索、多种检索手段。 1]. 基于内容的图像检索图像检索（CBIR）技术特点如下：1.不是单纯的数据库管理和急死案件视觉问题，她需要处理前所未有的数据，因此在处理速度、准确度、算法的鲁棒性方面都提出更高的要求2.图像数据的表达本身不是单一的，多种表达方式并存是可能的，表达方法的选择要依赖于特定的用户和特定的应用领域3在传统的图像数据库中，符号数据可以用基本的数据类型精准地表示，检索匹配是精确的匹配4.从媒体内容中提取信息线索5.符号数据库本身就具有语义信息，在符号数据命名的过程中举赋予特定的信息6.由于内容表达的不精确性，因为检索得到的结果可能包含一些不相关的图像，这种情况对于基于内容的检索式允许的重要的一点就是在检索中不要将相关的图像漏掉 CBIR的检索内容主要包括：颜色、纹理、形状、对象。 CBIR的常见方式如下：1.选择颜色的比例、层次以及纹理图案的图样进行查询2.用工具生成表示物体和物体间空间关系的符号图像进行查询3.用画图工具生成与希望查找的图像颜色分布相似的图像进行查询4.从当前窗口所陈列的全部图像中选择接近自己意愿的图像进行查询，重复多次，直至找到为止。6.上述方法与字符的关键词结合进行查询 2]. 基于内容的视频检索视频可用故事单元、场景、镜头、帧等描述。帧是直接从视频中抽取的每一幅图像，是视频的最小单位。镜头是视频序列经过时序分割后的结果，是基于内容的视频检索中的最小语义单元关键帧是为了减少数据量，提高检索效率，从镜头中提取的一帧或多帧图像来表示镜头的特殊的视频帧。场景是在镜头的基础上，为了抽取高一级的语义单元，需要聚类相似的镜头为场景。故事单元式相同的场景经过聚类后形成故事单元。视频检索的方式目前主要有以下两种：基于关键帧的检索、基于运动的检索。一个典型的视频检索CBVR系统至少包括媒体库、特征库、方法库和检索界面四部分。 3. 基于内容的音频检索音频信息检索分：1）基于语音技术的检索：成果有利用大量词汇语音识别技术进行检索、基于子单词元进行检索、基于识别关键词进行检索基于说话人的辨认进行分割。2）音频检索：声音训练和分类、听觉检索、音频分割。 3）音乐检索：以音乐为中心的检索。 8.5 分布式多媒体数据库系统分布式多媒体数据库系统的特点：实时性、同步特性、服务质量、体系结构、客户—服务器结构。8.6 结构化查询语言 8.6.1 SQL简介SQL86主要包括以下4部分：模块定义语言、数据操纵语言、模块语言、嵌入式语法。 8.6.2 SQL的5种数据类型：字符型、文本型、数值型、逻辑性和日期型。 1. 基本数据类型1）字符型：VARCHAR、CHAR 2)文本型：TEXT3)数值型：INT、SMALLINT、TINYINT 4）逻辑性：BIT5)日期型：DATETIME、SMALLDATETIME 2. 支持多媒体数据的数据类型BLOB数据是数据量很大的数据类型，它会占用大量的硬盘空间、内存和网络资源，对提高存储效率、查询速度有很大的影响。BLOB的设计原则是：使用BLOB数据类型还是使用varchar、存储BLOB在数据库中或者在文件系统中。8.6.3 SQL的基本语：创建表、创建索引、改变结构、删除数据对象、执行查询、修改表中数据、数据库切换、统计函数。 8.7 多媒体数据保存和获取示例 8.7.1 图片文件的保存图片是以二进制的形式保存在数据库中，保存步骤有：1）将图片转换为二进制数组；2）把转换后的二进制作为参数传递给要执行的Command；3)执行Commad。第9章多媒体计算机网络9.1 多媒体网络通信技术9.1.1 多媒体通信网络的基本结构和特点1. 多媒体计算机通信网络与人的交互界面主要是文字、图像、图形、声音、等人性化信息，主要体现了人类感觉器官对多媒体信息的自然需求。人机多媒体交互的双向性：多种多媒体信息提供服务同时我们又在像其输入信息。 2. 多媒体计算机通信网络除了通过人性化多媒体信心与人交互外，还可以通过各种属性信息直接与外界交换。3. 在多媒体计算机通信网络中，无论是与人交互的人性化的多媒体信息，还是与客观世界直接交互的多媒体信息，在进入计算机通信网络进行处理、存储和传输时，都是转换成统一的数字编码信息。4. 人对多媒体计算机网络具有特别重要的作用。 9.1.2 计算机网络概述按辖域分类，计算机网络以分为局域网（LAN）范围10m~1km，速率4Mbps~2Gbps；城域网（MAN）范围10km，速率40kbps~1004Mbps、广域网（WAN）范围100km，速率9.6kbps~45Mbps;互联网（Internet）范围1000km，速率9.6kbps~45Mbps1.LAN：指分布在数公里范围内的不同物理位置的计算机设备连接在一起，在网络软件的支持下可以互相通信和资源共享的网络系统。其特点一是容易管理和配置，二是容易构成间接整齐的拓扑结构。2.WLAN：具有以下优点，安装便捷、使用灵活、经济节约、易于扩张。3.WAN：由接口信息处理机IMP通过线路连接起来，构成网状结构，IMP主要是寻径。 4.MAN：是介于局域网与广域网之间的一种大范围的高速网络，采样IEEE 802.6标准。 5.Internet：不是一种具体的物理网络技术，而是将不同的物理网络技术按某种协议统一起来的一种高层技术。传统网络普遍存在以下缺陷：1.业务的依赖性，般性网络只能用于专一服务，公用电话网络不能用来传送电视信号,X.25不能用来传送高宽带的图像和对实时性要求较高的语言信号。2.无灵活性，业务扩展的可能性不大，原有网络的服务质量很难适应今后出现的新业务。 3.效率低，个网络的资源很难被其他网络共享。9.1.3 ATM技术 ATN是一种传输模式，信息被组织成信元，因包含来自某用户信息的各个信元不需要周期性出现，因此这样传输模式是异步的。ATM信元是固定长度的分组，共有53个字节，分为2个部分。前面5个字节为信头，主要完成寻址的功能；后面的48个字节为信息段，用来装载来自不同用户，不同业务的信息。9.1.4 IPv6协议：IP协议诞生于20世纪60年代末期，协议的地址长度设定为32个二进制数位，其中前8位标识网络，后24位标识主机。IPv6的位地址空间为解决IPv4的32地址空间不足，过度方案机制包括，兼容IPv4的IPv6地址、双IP协议栈和基于IPv4隧道的IPv6三种。 9.1.5 ATM与IPIP协议所具有的最大优势在于：它可以运行在任何介质和网络上，可以保证异种网络的互通，并且，IP技术顺应了计算机不断普及、功能越来越强这一趋势，随着PC应用的扩展而逐步扩大。1.IP与ATM技术的融合的两种方式：一种是叠加方式，另一种是集成方式。2.IP与ATM各自的位置：ATM位于核心，作为底层传输技术，帧中继和IP作为较低速的接入，IP用来集成网络的应用功能。 9.1.6 网络接入技术主要包括铜线接入技术、光纤接入技术、混合光纤同轴（HFC）接入技术等多种有线接入技术以及无线接入技术。非对称数字用户线路：DSL(数字用户) 是以铜质电话线为传输技术组合，包括HDSL、SDSL、VDSL、ADSL和RADSL等，一般称之为xDSL。它们主要的区别体现在两个方面：信号传输速度和距离的不同，上行速率和下行速率对称的不同。电缆调制解调器：电缆调制解调器主要用于有线电视网进行数据传输。电力线接入方案：电力线通信的噪音主要来源于与低压电网相连的所有负载以及无线电广播的干扰等。 9.1.7 无线接入技术 1.GPRS与WAPGPRS是一种用于GSM的标准分组交换数据业务，它使移动通信于数据通信想结合。 WAP由是一组通信协议和应用环境构成，它是把网络上的信息传送都无线通信装置上的一个开放是标准协定。 2.蓝牙技术蓝牙计划是由Ericsson、IBM、Intel、Nokia和Toshiba等公司联合主推的一项最新的无线网络技术。 “蓝牙”是一种短距离通信标准，其技术界面是专用半导体集成电路芯片，用“嵌入”电子器件内。蓝牙计划主要面向网络中各类数据及语音设备。3.IEEE 802.11 协议：主要用于解决办公室局域网和校园网中的用户与用户终端之间的无线接入，其支持无线电波和红外线，并且定义了两种认证服务：开放系统认证和共享密钥认证。其他版本还有IEEE 802.11a，IEEE 802.11b，IEEE 802.11g。 4.WiMax WiMax的全名是微波存取全球互通，又称IEEE 802.16标准，或广带无线接入(BWA)标准。它是一项无线城域网（WMAN）技术，是针对微波和毫米波频提出的一种新的空中接口标准。WiMax优势在于：1.实现更远的传输距离；2.提供更高速的宽带接入；3.提供优良的最后1km网络接入服务；4.提供多媒体通讯服务。9.2分布式多媒体计算机系统：分布式系统一般都基于高速网络和轻型协议。 9.2.1 分布式多媒体计算机系统的基本特征：1. 多媒体综合性:将不同的多媒体、不同类型的信息采用同样的或非常接近的接口，统一进行管理，提高多媒体应用的效率和水平；2. 资源分散性；是其一个基本特征，是指系统中各种物理资源和逻辑资源在其功能和地理上是分散的；3. 运行实时性：实时性分为硬实时软实时，关键是多媒体信息和计算机的正文相匹配。 4. 操作交互性：是指在改系统中发送、传播各种多媒体信息时，采用实时交互式操作方式，随时可以对多媒体信息进行加工处理修改放大和重新组合；5. 系统透明性：是其主要特征，其原因在于系统中的资源时分散的，用户在全局范围内，使用相同的名字可以共享全局的所有资源。9.2.2 分布式多媒体计算机系统服务模型：总体来开采用客户端—服务器模型即C/S模型，即把一个复杂的多媒体任务分成两个部分区完成，运行在一个完整的分布式环境中。C/S与系统无关，只是一种设计分布式多媒体系统就是把多媒体信息的获取、表示、传输、存储、加工、处理集成为一体，运行在一个分布式计算机网络环境中。 9.2.3 分布式多媒体系统的层次结构从功能上分5层：多媒体接口层、多媒体传输层、流管理层、多媒体表示层、应用层。 1.多媒体接口层：是系统的底层，系统与各种媒体通信输入输出的接口。其功能是，实现多媒体输入的模\\数转换；实现多媒体输出的数\\模转换；对输入的数据打上时钟标记。2.多媒体传输层；其功能在于，采用各种协议提供多媒体数据；可实现从远程发送来的数据和本地的数据具有相同的机制，并对高层提供支持。3.流管理层：其功能，数据源通过下层传输层获取多媒体数据流；向目的地和高层提议多媒体数据；对单一媒体如音频和视频进行压缩编码处理等；流输入的选择和分发。4.多媒体表示层：其功能，流间和流内的同步；综合同步多媒体数据；对特定流进行处理。5.应用层：根据不同应用分别配置不同相应软件。 9.2.4 网格网格：是把整个Internet整合成一台巨大的超级计算机，实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全共享。网格的定义：网格就是构筑在互联网上的一组新兴技术。它是将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体，为科技人员和普通百姓提供更多的资源、功能和交互性。网格的构成：网格有虚拟引擎、虚拟操作系统、虚拟中间件、应用软件四个层次构成。网格的分类根据网格所管理的资源类型，网络通常可以分为计算网格、数据网格、设备网格和应用网格。网格的应用 9.3 P2P网络P2P技术称为对等网络技术，是一种用于不同计算机客户之间，不经过中间设备直接交换信息的技术，实质上是一种网络结构思想。 P2P技术的目的就是希望能够充分利Internet中所蕴含的潜在的资源，通过系统中各个结点之间直接的数据通信引导网络计算从中心走向边缘，充分利用终端设备的处理能力，每个结点主动地加入网络享资源。 9.3.1 P2P技术体系结构与分类P2P技术存在三种结构模式的体系结构：以Napster为代表的集中目录式结构、以Gnutella为代表的纯P2P网络结构和混合式P2P网络结构。第一代P2P（控制网络体系结构——集中目录式结构）第二代P2P（分散分布网络体系结构——纯P2P网络）第三代P2P（混合网络体系结构——混合式网络结构）新一代P2P 新技术措施：动态口选择之一、双向下载、智能结点弹性重叠网络 9.3.2 P2P网络的特点1.分散化；2.可扩展性；3.鲁棒性；4.高性能：被广泛关注的重要原因 9.3.3 P2P技术的应用实时通信、实时比赛和游戏、协同工作、文件共享、共享体验、内容分发、音频和视频、发产品升级补丁、分布式计算、整合计算资源。 9.4 流媒体及其传输协议流媒体：是指在网络中使用流式传输技术的连续时基媒体。 9.4.1 RTP/RTCP协议RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。 RTP传输协议的特点：协议的灵活性、数据流和控制流分离、协议的可扩展性和适用性。 RTP协议本身不提供流量控制和拥塞控制功能，它靠一个专门的实时传输控制协议RTCP来实现。RTCP周期性地统计数据包传输时的丢失情况等信息并反馈到服务器端，服务器根据这些反馈信息来制定流量控制的策略，改变传输码率甚至负载类型，大大提高了实时数据的传输性能。 RTCP是RTP的伴生协议，提高传输过程中所需的控制功能。 9.4.2 RSVP协议 RSVP协议时一种可以提供音频、视频、数据等混合服务的互联网综合服务。 RSVP本身并不是路由协议，是与现实或将来出现的点对点传播和多对组播协议一起工作的。在资源申请建立的过程中，RSVP请求被传输到两个本地模块：接纳控制模块和策略控制模块。RSVP协议具有下列特性： RSVP可以在点对点传播和多点组播的网络通信应用中进行预留资源申请，可以动态地调节资源的分配，以满足多点组播中组内成员的动态改变，与路由状态改变的特殊要求。 RSVP比较简单，如它只为单向的数据流申请资源。 RSVP是面向接收端的，有数据流的接收端进行资源申请。并负责维护该数据流所申请的资源。 RSVP在路由器和主机端维持“软”状态，解决了组群内成员的动态改变和路由的动态改变所带来的问题。 RSVP并不是一种路由协议，依赖于目前或将来出现的路由协议。 RSVP本身并不处理流量控制和策略控制的参数，而仅把它们送往流量控制和策略控制模块。 RSVP提供几种资源预留的模式供选择，以适应不同的应用需求。 RSVP对不支持它的路由器提供透明的操作 RSVP支持IPv4和IPv6 9.4.3 RTSP协议 RTSP的特点：可扩展性——新方法和参数很容易加入RSVP易解析——RSVP可有标准HTTP或MIME解析器解析安全——RSVP适用网页安全机制于传输——RSVP可以使用不可靠数据报协议、可靠数据报协议多服务器支持——每个流可放在不服务器上，用户端自动与不同服务器建立几个并发控制连接，媒体同步在传输层执行记录设备控制——协议可控制记录和回放记录流控与会议开始分离——仅要求会议初始化协议提供，或可用来创建唯一会议标识号适合专业应用——通过SMPTE时标，RSVP支持帧级精度，允许远程数字编辑第十章多媒体应用系统 10.1 H.323视频会议系统10.1.1 H.323协议概述H.323协议中定义的设备包括了终端、网关、网口管理器、多点控制器和多点控制单元等设备。H.323提供了多种媒体编码方式，对于音频课采用G.711、G.722、G.728、G.729等。 H.323协议体系的另一个特点是支持分组网上的视频会议，网口管理器、多点控制器和多点控制单元等是视频会议系统的主要控制和转发设备。H.323会议系统采用了两种基本的呼叫方式，第一是直接呼叫信令模式，在两个终端之间直接传输信令；第二种是利用网口管理器作为信令中继器，转发终端之间的信令。10.1.2 H.323终端：H.323终端是通过H.323/T.120协议定义的多媒体终端，提供实时的音频和视频双向通信。10.1.3 H.323网关： H.323网关在采用不同体系结构或协议的网络之间进行互通时，用于提供协议转换路由选择数据交换等网络兼容功能的设施。10.1.4 H.322多点控制单元：多点控制单元（MCU）主要负责控制多用户接续、数据和声音混合及视频数据的切换等。一个MCU由多点控制器和若干个多点处理器组成。在以下两种会议形式中MCU是必须的：在分散式视频会议中，与会终端以多播方式与其他终端广播声音和视频图像；在集中式视频会议中，所有终端都要以点对点的方式向MCU发送声音、视频图像、数据和控制流。10.1.5 H.323网守：作用是它管辖区域里的所有呼叫的中心控制点，并且为注册的端点提供呼叫服务。H.323协议中。网守的主要功能是通过RAS规范实现的。它包含的内容是：一个是定义在RAS规范中的地址转换；另一个也是在RAS规范中定义的网络管理功能。 10.2 IP电话 10.2.1 IP电话的概念：IP电话允许在使用TCP/IP协议的因特网、内部网或者专用LAN和WAN上进行电话交谈。10.2.2 IP和PSTN电话的技术差别拨打IP电话和在IP网络上传送声音的过程可归纳如下：1.来自麦克风的声音在声音输入装置中转换成数字信号，生成“编码声音样本”输出。 2.IP电话应用程序估算样本块的能量。3.在样本块插入样本块头信息，然后封装到用户数据包协议套接接口成为信息包。 4.信息包在物理网络上传送。5.从缓冲存储器中把声音复制带声音输出设备装换成模拟声音，完成一个声音样本快的传送。从原理上说，IP和PSTN电话之间在技术上的主要差别是它们的交换结构。因特网使用的是动态路由技术；而PSTN使用的静态交换技术。10.2.3 IP电话的类型 1. PC到PC 工作原理：软件将从麦克风收集的声音通过声卡转换成数字信号，并在压缩后通过网络将这些信号传送到接收方一端，再由接收方PC上的软件将所收到的信号解压缩，通过声卡转换为模拟信号后由音箱或耳机播放出来，从而完成整个通话过程。 2.PC到电话工作原理：计算机到电话类型通话的实现过程。 3.电话到电话有3中不同的应用形式：1.通话双方都有计算机与电话直接连接，用户不必直接操作计算机，但是只能进行单点对单点的通话，没有标准的通信服务功能。2.通话双方都不需要使用计算机，只需各自配备上网账号和专用的IP电话设备。3.IP电话服务器支持下的“电话到电话”方式，有服务提供商提供全套服务，通话双方不需要增加任何软硬件设备，只需利用现在有电话即可实现IP电话功能。 10.2.4 IP电话标准重要标准时信号传输协议。信号传输协议是用来建立和控制多媒体回话或者呼叫的一种协议，数据传输不属于信号传输协议。 10.3 即时通信系统即时通信系统是指使用因特网技术，允许人们实现地传送文本、语音、视频和数据文件等信息软硬件系统。是特点是能让用户可以选择性地接受或拒绝某人的信息，也可以同一时间与多人进行交流。10.3.1 即时通信系统的设计要求即时通信系统需要保证数据通信的即时性以及通信过程和信息存储的安全性，为企事业单位的使用者提供信息安全保障，同时减少系统资源的消耗，保证系统运行的低故障率。其设计要有有：1.数据通信完整与可靠性；2.通信安全性；3.通信效率和公平性；4.系统可控性；5.系统稳定性能； 10.3.2 即时通信的标准IM有4种协议：即时信息和出息协议IMPP、出席和即时信息协议PRIM、针对即时消息和出席平衡扩展的会议初始化协议SIP/SIMPLE以及扩展的消息和出席协议XMPP。IMPP主要定义必要的协议和数据格式，用来构建一个具有出席通知、发布能力的即时信息系统。10.3.3 即时通信的基本流程 Internet中实现通信主要依赖TCP/IP协议。通信双方根据对方的IP地址和端口号，就可以互发数据包来实现通信。 10..3.4 即时通信系统的结构系统主要为三大部分：服务器端、客户端和注册数据库。 1.即时通信系统的核心功能模块如下：节点命名部分实现对节点的命名，从而为区别不同用户创建条件；共享信息资源命名部分实现对用户提供的可共享文件信息资源命名；节点定位部分实现不同在线用户在Interner上位置的确定；通信服务接口模块是即时通信系统的核心功能模块和具体功能模块之间的接口。具体功能服务模块的实现在通信服务接口映射为一组API的调用。 2.即时通信系统为用户提供的具体功能服务模块如下：聊天服务实现用户之间直接通信和好友上线提醒；信息资源索引提供位于在线用户计算机上的共享文件索引；节点索引提供在线用户索引；系统互连提供一个开放的接口，以便与非本系统用户互连；代理服务为不能直接建立通信的用户提供代理；可以根据需要为用户扩展新功能。 10.3.6 Skype 系统简介 Skype是即时通信的一种，与ICQ、MSN、QQ等所不同的是，它采用了P2P技术和VoIP技术，为用户提供超清晰的语音通话效果，并且使用端对端的加密技术，保证了通信的安全可靠。 Skype的主要技术特点体现在以下几方面：全球搜索引擎、超强穿透能力，穿透防火墙及NAT、超清晰音质、传超大文本、无延迟消息、安全加密、最大可能的节约资源。 10.4 VOD系统VOD系统是用来按用户需求将视频信息通过宽带发布的一种方式。VOD服务器环境是非常复杂的，它的设计采用C/S模型，并且适应分布式计算环境。VOD系统是由在分布式环境中具有不同功能的一些子系统组成。这些子系统包含一个VOD管理工作站、一个或多个控制器和多个数据源。按照业务的交互性能，VOD大致可分为两种类型：1.全交互型VOD或真视频点一一根据用户的点播指令，网络向用户提供单独的信息流。 2.准VOD一一每个电影节目按照一定的时间间隔，重复发送有限个信息流，供给所有的点播用户使用，这样点播节目方式的用户得到响应的时间可能在0~15分钟之间。 10.4.1 TVOD系统 TVOD系统具有双向对称的传输容量，人们能够完全实现收视，实时地控制节目的播放，并在收视过程中像使用录像机那样控制节目的快进、快退、暂停等。 1..系统构成 VOD系统是由信源、信道以及信宿组成的。它们分别对应于CATV系统的前端机房、传输网络和用户终端。 2.工作方式VOD常采用切换方式实现。3.前端VOD子系统的组成前端为模拟信号的VOD子系统的组成：节目录入工作站、图文编辑系统、视频服务器、视频解压系统、播控系统、计费系统、视频加扰设备、调制器、交换系统。 4.VOD系统带宽的确定 10.4.2 NVOD系统NVOD是一种非对称的双工传输系统，解决了用户主动收看电视节目的问题，同时也解决了有线电视双向收看点播节目的用户进行收费问题。1.NVOD常采用的几种方式：在某一频道循环播放节目、充分利用频道资源、利用计算机网络实现NVOD。2.适合我国目前情况的一种NVODCATV是由点播中心、播控中心、辅助制作中心、模/数转换系统、视频节目库组成。 10.4.3 VOD系统的要求条件VOD所提供的服务条件是与用户、信息提供者和设备提供者有关，这是系统总体设计要考虑的问题有：给用户提供服务的条件、信息提供者的服务条件、设备提供者的要求条件。 10.4.4 VOD业务应用在以下领域：校园多媒体网络教室、多媒体图书馆、企业内部培训、多功能网吧、KTV点歌、互动式导览展示系统、宾馆饭店、住宅小区。 10.5 IPTV系统 IPTV即交互式网络电视，是一种利用宽带有线电视网、集互联网、多媒体、通信等多媒体技术于一体，向家庭用户提供包括数字电视在内的多种交互服务的技术。狭义的IPTV，即包括TV在内的所有业务都承载在IP之上广义的IPTV所涵盖的业务包括VOD、InternetTV、Mobile Video、Mobisodes、视频游戏、电视上网、收发邮件、电视商务等。与传统的电视业务相比，IPTV最大的特点是能够进行个性化和实时交互特点的点播服务，还可以开展类似于传统电信业务和互联网业务的其他增值服务。 10.5.1 IPTV系统架构 IPTV 系统分为IPTV平台部分、宽带传送网、用户端IPTV终端三部分。IPTV平台部分主要包括节目采编、数字版权管理、流媒体存储及分发、用户管理、认证授权及计费几部分组成。目前的IPTV终端分为三种形式，即PC平台终端、IP-SIB(机顶盒)平台终端和手机平台（移动网络）终端。 10.5.2 IPTV关键技术IPTV属于一种流媒体业务。相关的技术包括：视频编解码技术、流媒体技术、数字版权管理技术、VDN技术、组播技术和运营支撑技术等。 1. 视频编解码技术2. 数字权管理（DRM） DRM技术的工作原理是：建立数字节目授权中心，编码压缩后的数字节目内容，利用密钥可以被加密保护，加密的数字节目头部存放着KeyID和节目授权中心的URL.用户在点播时，根据节目头部的KeyID和URL信息，就可以通过数字节目授权中心的验证授权后送出相关的密钥解密，节目方可播放。 3. 技术VDN通过在现有的Internet中增加一层新的网络架构，将中心服务器的内容发布到最接近用户的网络“边缘”，使用户可以就近取得所需的内容，提高用户访问视频的响应速度。对VDN的基本要求有：1.管理中心、分发中心和缓存服务点呈层次化网络结构，多个分布式节点之间进行负载均衡和备份，方便地支持性能和功能的扩展。2.完整的服务认证、计费体系，包括系统管理、用户管理、配置管理、监控统计、内容管理、ICP管理和开通管理。3.基于应用层方案，支持基于RTSP、HTTP协议的应用层重定向，将用户导向至边缘节点，并通过远程节点的媒体服务系统为最终用户提供流媒体服务4.实现跨越网络地址转换部署，解决全局负载均衡不能跨越NAT转到私有网络问题。 5.系统具有良好的伸缩性和兼容性 4. 组播技术它允许一个或多个发送者（组播源）一次、同时发送单一的数据包到多个接收者的网络技术。组播源把数据包发送到特定组播组，而只有属于该组播的地址才能接收到数据包。其与单播传输相比，组播的优点体现在以下三方面：1.因为重复数据流被单一传送所代替，从而使的网络带宽得到了更有效地使用。 2.组播的使用大大减少需要服务器需要处理的数据量，减少了服务器的性能。 3.组播可不受客户数量增长的。 10.5.3 IPTV终端IPTV终端主要有3种类型：个人电脑+软件播放器，电视机+机顶盒，以及用于移动流媒体平台的多媒体手机。其种类有：基于PC的终端系统、基于STB的终端系统、移动终端系统。 10.6 多媒体消息业务 10.6.1 概述 MMS通常又称彩信。它最大的特点就是支持多媒体功能，能够在支持彩信功能的手机之间或手机与计算机之间传递功能全面的内容和消息，这些信息包括文字、图像、声音、数据等各种多媒体格式的信息。 SMS短信系统，也有这样的消息中心，但是发送的消息都是文本，所以工作比较简单。 10.6.2 多媒体消息服务系统的构成多媒体消息服务系统包括以下部分：MMS终端、多媒体消息业务中心、MMS重定向器、MMS用户数据库、外部应用服务器、增值应用服务器以及MMS应用支持系统。 10.6.3 多媒体消息业分类多媒体消息业务按通信实体划分，可以分为：终端到终端、终端到应用、应用到终端。1、多媒体的关键特性主要包括信息载体的多样化、交互性和集成性。 2、以下（B）不是数字图形、图像的常用文件格式。（2）A、.BMP B、.TXT C、.GIF D、.JPG 3、多媒体计算机系统中，内存和光盘属于（D）。（3）A、感觉媒体 B、传输媒体 C、表现媒体 D、存储媒体 4、所谓媒体是指（A）。（4）A、表示和传播信息的载体 B、各种信息的编码 C、计算机输入与输出的信息 D、计算机屏幕显示的信息 5、用下面（B）可将图片输入到计算机（5）A、绘图仪 B、数码照相机 C、键盘 D、鼠标 6、目前多媒体计算机中对动态图像数据压缩常采用（C）。（6）A、JPEG B、GIF C、MPEG D、BMP 7、多媒体技术发展的基础是（A）。（7）A、数字化技术和计算机技术的结合 B、数据库与操作系统的结合 C、CPU的发展 D、通信技术的发展8、具有多媒体功能的PC机上常用CD-ROM 作为外存储器，它是（C）。（8）A、随机存储器 B、可擦写光盘 C、只读光盘 D、硬盘 9、多媒体PC是指（C）。（9）A、能处理声音的计算机 B、能处理图像的计算机C、能进行文本、声音、图像等多种媒体处理的计算机 D、能进行通信处理的计算机 10、下列哪种说法不正确（C）。（10）A. 预测编码需将预测的误差进行存储或传输。 B.预测编码是根据某一模型进行的。C. 预测编码是一种只能针对空间冗余进行压缩的方法。 D.预测编码中典型的压缩方法有DPCM、ADPCM。 11、CD-ROM是由（B）标准定义的。（11）A． B．黄皮书 C．绿皮书 D．红皮书 12、只读光盘CD-ROM的存储容量一般为（D）。（12）A、1.44MB B、512MB C、4.7GB D、650MB 13、下面属于多媒体的关键特性是（B）。（13）A、实时性 B、交互性 C、分时性 D、独占性 14、下面（A）不是播放CD片上影视节目的必须设备（14）A、软驱 B、音频卡 C、视频卡 D、CD-ROM15、超文本技术提供了另一种对多媒体对象的管理形式，它是一种息组织形式。（15）A、非线性 B、抽象性 C、线性 D、曲线性 16、多媒体计算机系统的两大组成部分是（D）。（16）A、多媒体器件和多媒体主机 B、音箱和声卡C、多媒体输入设备和多媒体输出设备D、多媒体计算机硬件系统和多媒体计算机软件系统A）的信（17、光驱中的单倍速是指读写的速度是（B） /秒，其它的倍速是把倍速的数字与它相乘（17）A、300KB B、150KB C、IMB D、10MB18、、从多媒体硬件的发展来看，今后多媒体卡的主要功能都会集成到（B）。（18）A、计算机显卡B、计算机主板C、计算机内存D、硬盘存储器19、多媒作过程中，不同媒体类型的数据收集需要不同的设备和技术手段，动画一般通过（D）。（19）A、字处理软件 B、视频卡采集C、声卡剪辑D、专用绘图软件 20、视频信息的最小单位是（B）。（20）A、比率 B、帧 C、赫兹 D、位（bit） 21、下面（D）不是计算机多媒体系统具有的特征。（21）A、媒体的多样性B、数字化和影视化C、集成性和交互性D、形式的专一性22、同样一块差不多大小的光盘，存储信息量最大的（C）光盘（22）A、LV B、VCD C、DVD D、CD-DA 23、多媒体计算机中的媒体信息是指（D）。（23）A、数字、文字B、声音、图形C、动画、视频D、上述所有信息 24、计算机中显示器显示设备是根据是（C）三色原理生成的。（24）A、RVG（红黄绿） B、WRG（白红绿） C、RGB（红绿蓝） D、CMY（青品红黄） 25、多媒体的特性判断，以下（A）属于多媒体的范畴。（25）A、有声图书 B、彩色画报 C、文本文件 D、立体声音乐 26、多媒体技术未来的发展方向是（D）。（26）A、高分辩率、高速度化 B、简单化，便于操作 C、智能化，提高信息识别能力 D、以上全部27、在数字音频信息获取与处理过程，下述正确的顺序是（C）。（27）A、A/D变换、采样、压缩、存储、解压缩、D/A变换 B、采样、压缩、A/D变换、存储、解压缩、D/A变换 C、采样、A/D变换、压缩、存储、解压缩、D/A变换 D、采样、D/A变换、压缩、存储、解压缩、A/D变换 28、彩色打印机生成的各种颜色是用（D）三色相减模型组成。（28）A、RVG（红黄缘） B、WRG（白红缘） C、RGB（红缘蓝） D、CMY（青品红黄） 29、在（B) 时，需要使用MIDI。（29）A、没有足够的硬盘存储波形文件 B、用音乐作背景效果 C、采样量化位数 D、压缩方式 30、以下（A）不是常用的声音文件格式。（30）A、JPEG文件 B、WAV文件 C、MIDI文件 D、VOC文件 31、音频卡是按（C）分类的。（31）A、采样方法 B、声道数 C、采样量化位数 D、压缩方式 32、下面（D）不是衡量数据压缩技术性能的重要指标。（3）A、压缩化 B、算法复杂度 C、恢复效果 D、标准化 33、下面（C）不是图像和视频编码的国际标准。（33）A、JPEG B、MPEG-1 C、ADPCM D、MPEG-234、图像序列中的两幅相邻图像，后一幅图像与前一幅图像之间有较大的相关，这是（B）。（34）A、视觉冗余 B、时间冗余 C、信息熵冗余 D、空间冗余 35、DVD动态图像标准是指（D）。（35）A、MPEG-1 B、JPEG C、MPEG-4 D、MPEG-236、把普通PC变成MPC要解决的关键技术是（D）。（36）A、视频音频信号的获取技术和输出技术 B、多媒体数据压缩编码和解码技术C、视频音频的实时处理和特技 D、以上全部 37、多媒体数据具有（D）特点。（37）A. 数据量大和数据类型多 B. 数据类型间区别大和数据类型少C. 数据量大、数据类型多、数据类型间区别小、输入和输出不复杂。 D. 数据量大、数据类型多、数据类型间区别大、输入和输出复杂。 38、WinZip是一个（A）软件。（38）A、压缩和解压缩软件B、压缩软件C、解压缩软件D、安装工具软件 39、超文本是一种非线性的网状结构，它把文本可以分为不同基本信息块，即信息的基本单元是（B）。（39）A、字节 B、节点 C、字 D、链40、在超文本和超媒体中，不同信息块之间的连接是通过（C）来连接的。（40）A、节点 B、字节 C、链 D、字 41、以下（D）不是超文本的三个基本要素。（41）A、节点 B、链 C、网络 D、多媒体信息 42、专门的图形图像设计软件是（A）。（42）A、Photoshop B、ACDSee C、HyperSnap-DX D、WinZip 43、看图软件是（B）。（43）A、Photoshop B、ACDSee C、HyperSnap-DX D、WinZip 44、抓图软件是（C) 。（44）A、Photoshop B、ACDSee C、HyperSnap-DX D、WinZip45、多媒体信息不包括（B）。（45）A、音频、视频 B、声卡、光盘 C、动画、影像D、文字、图像 46、下列关于dpi的叙述（C）是正确的。（1）每英寸的bit数（2）每英寸像素点（3）dpi越高图像质量越低（4）描述分辨率的单位（46） A．（1），（3） B．（1），（4） C．（2），（4） D．全部 47、多媒体个人电脑的英文缩写是（D）。（47）A、VCD B、APC C、DVD D、MPC 48、扫描仪所产生的颜色范围不会是（B）种。（48）A、2048 B、 1000 C、16.8M（2的24次方） D、1024 49、扫描仪可扫描（A）。（49）A、黑白和彩色图片B、黑白图片C、彩色图片D、位图文件形成图片 50、目前广泛使用的触摸技术是属于（B) 。（50）A、工程技术 B、多媒体技术 C、电子技术 D、传输技术 51、颜色的三要素包括（A）。（51）A、亮度、色调、饱和度 B、亮度、色调、分辩率 C、色调、饱和度、分辩率 D、亮度、饱和度、分辩率 52、在美术绘画中的三原色，指的是（C）。（52）A、桔黄、绿、紫 B、白、黑、紫C、红黄蓝D、红绿黄 53、国际上常用的视频制式有：(C)（1）PAL制（2）NTSC制（3）SECAM制（4）MPEGA、（1） B、（1）（2） C、（1）（2）（3） D、全部 54、JPEG是（A）图像压缩编码标准。（54）A、静态 B、动态 C、点阵 D、矢量55、MPEG是数字存储（B）图像压缩编码和伴音编码标准。（55）A、静态 B、动态 C、点阵 D、矢量 56、（D）不是用来播放多媒体的软件。（56）A、超级解霸 B、Windows XP中自的播放软件 C、Real Player D、Authorware57、在下列各种图像文件中，图像压缩比高，适用于处理大量图像的格式是(A) 。 (57)（A）JPEG文件（B）BMP文件（C）TIF文件（D）PCX 58、静止压缩图像标准是（D）。（58）A、JPG B、MPEG-1 C、MPEG-2 D、JPEG 59、Authorware是一种多媒体（B）。（59）A、操作系统 B、编辑与创作工具 C、数据库 D、应用软件 60、Authorware采用的是一种面向对象的（A）创作方式。（60）A、图标 B、字节 C、节点 D、像素匹配准则和模型训练技术3个方面。语音识别的应用：⒈语音邮件集成。⒉数据库输入和询问应用。⒊语音命令和控制应用。CD—ROM以其容量大、速率快、兼容性强、盘片成本低廉等特点，短时间内还将是PC中除硬盘外的主流存储介质。闻名世界的“红皮书”协定，符合这种标准的光盘又称为数字激光唱盘。即CD—DA。从CD—DA过渡到CD—ROM有两个重要的问题要解决：⒈计算机如何寻找光盘上的数据，也就是如何划分光盘上的地址问题。 ⒉把CD光盘作为计算机的存储器使用时，要求它的错误率远远小于声音数据的错误率。当时的CD—DA技术不能满足这一要求，因此还要采用错误纠正技术。CD—ROM yellow book 黄皮书黄皮书在很大程度上继承了红皮书的内容。 CD—R orange book 橙皮书。CD盘是由保护层、反射激光的铝反射层、刻槽和聚碳酸脂衬垫组成。 CD光盘的结构与磁盘磁道的结构有很大的不同。软磁盘存放的数据的磁道是同心环，磁盘片转动的角速度是恒定的，用CAV表示。采用同心环磁道的好处之一是控制简单，便于随机存取，但由于内外磁道的记录密度不同，外磁道的记录密度低，内磁道的记录密度高，外磁道的存储空间没有得到充分的利用，因此存储器没有达到应有的存储容量。CD盘采用螺旋形光道，CD盘转动的线速率是恒定的。由于采用了恒定线速率（CLV），所以内外光道的记录密度可以一样，盘片得到了充分的利用。但随机存储特性变得较差，控制也比较复杂。单倍速光驱的速度：150kb/s Video CD标准又称为“”，描述的是一个使用CD格式和MPEG标准的数字电视播放系统。磁盘的记录原理称为磁记录，利用磁铁的两个极性来记忆1和0这两个二进制数。CD盘是利用在盘上压制凹坑的机械方法，利用凹坑的边缘来记录1，而凹坑和非凹坑之间的平坦部分记录为0，使用激光来读出。帧是激光唱盘上存放声音数据的基本单元。光驱的速率都是标称的最快速率，而这个数值是指光驱在读取盘片最外圈时才有可能达到的最快速率，而读内圈时的速率却远远低于标称值。光驱的寻道时间和缓冲区也影响着光驱的性能。寻道时间就是指激光头在接收到读取的命令后，将光头调整到数据的轨道上方所用的时间。因此，光驱的寻道时间是越短越好。光驱的防振动技术：橡胶减震支架。光驱正面：光盘托盘、托盘开关、耳机孔和音量控制钮。光驱背面：⒈四孔的电源接线。⒉一条数据传输线。⒊一条从光驱连接声卡的线，称为CD音频线。激光头是光驱的心脏，也是最精密的部分，它主要负责数据的读取工作。光盘上压制了许多凹坑，激光束在凹坑部分反射的光的强度，要比从非凹坑部分反射的光的强度弱，光盘就是利用这个简单的原理来区分1和0的。 DVD是数字电视光盘。提高光盘容量的办法：减小光道间距和凹坑尺寸是最主要的方法。另一种办法是增加层数。其容量与层数成正比。DVD可以使人们欣赏到更清晰的图像，高品质的音响和更丰富的图形。DVD可以做到双层双面，存储容量高达17G。DVD音频格式采用了杜比AC—3技术，包括两个立体声声道和5.1环绕立体声声道。DVD光盘的生产过程：⒈数据处理。⒉母盘刻录和压模制备。⒊复制。⒋黏合。 DVD面板：进碟仓、播放键、暂停键、停止键、液晶显示屏、快速换曲、搜寻键、电源开关。DVD播放机内部主要由5部分组成：托盘，电源电路板，影音解码板，功能控制电路板，影像音频转换输出板。CD—R橙皮书标准。CD—MO，可擦写。CD—WO，不可擦写。 CD—R有绿盘，金盘，蓝盘。刻录机主要有整盘刻写、轨道刻写、多段刻写。CD—RW是CD—R的一种补充，兼有CD—R刻录和数据存储两大功能。 CD—RW刻录机也有倍速之分：刻录速率，写入速率，读取速率。 CD—RW盘片在使用前需要格式化。光驱的应用技术： 1)True X技术2)人工智能纠错(AIEC)技术 3)自动平衡系统(ABS)4)双动态抗震悬吊系统(DDSS)技术 5)数字伺服系统技术第六章多媒体计算机软件多媒体软件分为五类：驱动程序，支持多媒体的操作系统或环境，多媒体数据库准备软件，多媒体编辑创作软件，多媒体应用软件。多媒体系统中直接和硬件打交道的软件称为设备驱动程序，它完成设备的初始化、设备各种操作以及基于硬件的压缩和解压缩、图像快速变换等基本硬件功能调用。多媒体操作系统在驱动软件之上，它是多媒体软件的核心：负责多媒体环境下多任务的调度；保证音频、视频同步控制以及信息处理的实时性；提供多媒体信息的各种基本操作管理；具有对设备的相对性与可扩展性。目前的操作系统在支持连续媒体应用中还面临着许多问题：一，操作系统缺乏实时性支持，它只能提供更好的计算能力。二，缺乏基于服务质量的管理，以使系统能够保证现有应用的服务质量。正在运行的应用程序叫进程，一个进程可以有一个或多个线程。我们一般称数字音乐、数字视频等为多媒体，Microsoft又给它起了一个新名字——数字媒体。多媒体数据准备软件是用于采集多种多媒体数据的软件，如声音录制、编辑软件、图像扫描及预处理软件、全动态视频采集软件和动画生出编辑系统。 WINDOWS环境下声音数据的采集： 1)打开波形输入设备 2)为采样数据分配缓冲空间 3)启动波形输入设备4)关闭语音输入设备使用Video for Windows(VFW)来获得视频流AVICap支持实时的视频流捕获和单帧捕获并提供对视频源的控制。显示视频时提供两种模式：1)预览(Preview)模式：使用CPU资源，视频先从捕获硬件传到系统内存，接着采用GDI函数在捕获窗中显示。2)叠加(Overlay)模式：使用硬件叠加进行视频显示，叠加视频的显示不经过VGA卡，叠加视频的硬件将VGA的输出信号与其自身的输出信号合并，形成组合信号显示在监视器上。WINDOWS环境下视频数据的采集：多媒体创作工具的评测标准：多媒体创作工具的分类：媒体创作软件工具（用于建立媒体模型、产生媒体数据），多媒体节目写作工具（提供不同的编辑、写作方式），媒体播放工具（可以在计算机上播出，有的甚至能在消费类电子产品中播出）以及其他各类媒体处理工具。音频数据处理软件是为多媒体计算机应用录制、编辑、修改数字化声音的工具软件，在windows环境下的数字化声音文件格式是波形声音文件。一个完整的数字化声音处理软件应包括以下功能：动画是通过以每秒15——30帧的速度顺序地播放静止图像以产生运动的错觉。如macromedia公司推出的flash和fireworks软件。所谓流媒体技术，是指将音频文件和视频文件变换成若干个数据小包，在网上像流水一样地传送。这样可以下载一个小包就播放一个，在播放的同时，后台下载其他小包，这样就避免了漫长的等待时间。目前应用最广泛的是real格式的影音文件。Real networks公司出品的realproducer可以将常见的音、视频文件转换成real格式的文件。由于rm格式的编码比mp3的压缩率还要大，所以可以得到更小的磁盘占用空间。第七章多媒体文档的组织和设计超文本被定义为：由信息结点和表示信息结点间相关性的链构成的一个具有一定逻辑结构和语义的网络。结点可以包含文本、图形、音频、视频、源程序或者其它形式的数据。包含多媒体的超文本称为“超媒体”。超文本系统的基本特征：基于超文本信息管理的系统称为超文本系统。基本特征： 1)图形用户接口2)向用户给出一个网络结构动态总貌图 3)一般使用双向链4)包含管理结点和链信息的引擎5)尽可能不依赖于它的具体特征、命令或信息结构，而更多强调的是它的用户界面的“视觉和感觉”。节点和链超文本系统由结点(node)和链(link)组成。一个结点通常表示一个单一的概念或围绕某一特殊主题组织起来的数据集合，是表达信息的一个基本单位，它可以包含文本、图形、动画、音频、视频、图像或者一段计算机程序。一个结点通过链与另一个或多个结点连接起来，链也是组成超文本的基本单位，一般结构可分为部分：链源、链宿及链的属性。链源是导致结点信息的原因。链宿是链的目的所在，通常都是结点。链的属性指链的版本、权限等。超文本充分利用了计算机的特点，它主要体现在3个方面：访问速度快，文献容纳的信息量大，以及链和结点可以动态地改变。超文本系统的用户接口 1)图形浏览器 2)Web视图 3)地图和概貌图 4)路径和形迹历史上著名的几个超文本系统：HTML语言，万维网依靠3种技术：⒈URL即制定网上信息资源地址的统一命名法。⒉HTTP即存取资源的协议。⒊在资源之间很容易浏览的超文本链接技术。 HTML文档是一种没有格式的文档，也称为ASCⅡ文件，因此，HTML文档可以使用任何一种文本编辑器来编写，如windows中的记事本notepad、写字板wordpad等。一个HTML文档通常由文档头head，文档名称title，表格table，段落paragraph和列表list，我们把这些成分称为文档元素element，简称为文素，使用HTML语言中的标签tag来标识这些文素。 HTML标签名称中的字母不分大小写， 1)HTML标签：<HTML> 2)文档头标签：<HEAD> 3)文档名称标签：<TITLE>4)正文标签：<BODY>5)标题标签：<Hn> n=1,2,...6 6)段落标签：7)字体：黑体、斜体、下划线、打字体<TT>8)字号和颜色：实际上是字体的属性，文本 超链接超文本链接通常简称为超链接，或者简称为链接。链接是HTML的一个最强大和最有价值的功能。链接是指文档中的文素或者图像与另一个文档、文档的一部分或者一幅图像链接在一起。在HTML中，简单的链接标签是<A>，也称为锚(anchor)签。web浏览器不一定对所有的HTML标签都支持，对于不认识的标签，不予理睬，但在这一对不认识的标签之间的文本仍然可以显示在计算机的屏幕上。 Javascript与java的区别：javascript不是java的替代语言。Javascript源代码无须编译。Javascript无须特殊开发环境。Javascript的特点：节省CGI的交互空间；节省了浏览者的访问时间和网络的流量；将java applet 作为处理对象。 Flash后缀名为.swfFlash是一种交互式矢量多媒体技术，使用者必须事先安装shockwave插件才能在浏览器里观看flash动画。Flash之所以能占据网络多媒体的重要位置，因为它采用了矢量技术，位图在描述简单图形时候，显得大，矢量图形小得可怜。XML的目标是要恢复Web最初的承诺，将混乱复杂的网页创作现状简单化。 XML一种扩展性标识语言，没有预先定义好的标签可以使用，而是依据设计上的需要，自行定义标签。第八章多媒体数据库概述多媒体数据库是数据库与多媒体技术相结合的产物。多媒体数据库与常规数据的差别 1)数据量：比常规数据量大2)数据长度：常规数据一般采用定长，而多媒体数据的数据量大小可变 3)数据模型：常规数据可用定长记录来存储，使用二维表，而多媒体数据对应的是一复杂对象，通常具有层次结构关系 4)数据定义及操作5)数据的时间特性和版本概念6)数据传送：多媒体数据要求连续传送或输出通常把能够管理数值、文字、表格、图形、图像、声音等多种媒体的数据库称为多媒体数据库，多媒体数据库应具有以下功能：对多媒体数据库进行研究分为两大类型：数据模型是数据库管理系统中用于提供信息数据表示和操作手段的形式框架，数据模型通常由数据结构、数据操作和完整性约束3部分组成。多媒体数据库的数据模型多媒体数据具有复合性、分散性、时序性的特点。现有的模型分为3类：关系数据模型、面向对象的数据模型和超媒体数据模型。多媒体数据的复合性、分散性和时序性对数据模型提出了如下要求：查询语言：查询语言是数据库系统极其重要的特性之一，是鉴别一个数据库管理系统成功与否的重要依据。多媒体数据库3中查询方法：关键字查询，可视化查询，语义查询。WWW上的文档按照HTML语言的规范书写和组织，这样的文档称为HTML文档，对WWW上的HTML文档设计全文检索系统时，应考虑：分布性，数据量巨大，动态性，复杂的标识符处理。所谓基于内容的检索，就是根据媒体对象的语义和上下文联系进行检索，它有如下特点：从媒体内容中提取信息线索，近似匹配，大型数据库的快速检索，多种检索手段。分布式多媒体数据库系统：特点：实时性，同步特性，服务质量，体系结构，客户—服务器结构。 SQL：结构化查询语言。SQL Serevr 2000 数据库是microsoft公司推出的新一代企业级数据库系统，SQL Server 2000 具有强大的起用Web特性，增强的可靠性和可伸缩性，SQL server 2000 使用XML来配置系统以宽松地交换数据。 SQL server 2000 特点：第九章多媒体计算机网络多媒体计算机网络的基本结构和特点1)与人的交互界面主要是文字、图像、图形、声音等人性化信息。2)除了通过人性化多媒体信息与人交互外，还可通过各种属性信息直接与外界交互。3)无论是与人还是与外界交互的多媒体信息，进入计算机通信网络进行处理、存储和传输时都被转换成统一的数字编码信息，因此在通信网络中要考虑编码变换问题。4)人对多媒体计算机通信网络具有特别重要的作用。目前，已显示出广阔应用前景的多媒体应用领域包括信息检索、远程教育、远程医疗、娱乐、视频会议。多媒体计算机通信网络的基本结构和特点：局域网LAN 城域网MAN 广域网WAN 互联网internet局域网距离最短，传输效率最高。广域网采用点对点的通信技术，而局域网采用广播式技术。主要技术1)ADSL：非对称数字用户线路 2)VPN：虚拟专用网3)WAP：一项能使手机、呼机和其它无线设备显示因特网内容的技术，称任无线应用协议4)蓝牙：一种短距离无线通信标准，其技术界面是专用半导体集成电路芯片，用于“嵌入”电子器件内。LAN采用广播通信方式，不存在寻径问题，所以它的通信子网不包括网络层。LAN的物理网络只包含物理层和数据链路层。WLAN无线局域网，利用电磁波在空气中发送和接受数据，而无须线缆介质。无线网络的特点：安装便捷，使用灵活，经济节约，易于扩展。广域网中一般采用点对点的通信技术，所以必须解决寻径问题，广域网的物理网络中必须包含网络层的原因。DSL是以铜质电话线为传输介质的传输技术组合，包含HDSL,ADSL等，它们之间的区别在于：信号传输速度和距离不同，上行速率和下行速率对称性不同。 ADSL具有不对称性和高速的下行通道。ADSL是利用数字编码技术从现有的铜质电话线上获取最大数据传输容量，同时又不干扰在同一跳线路上进行的常规语音服务。ADSL的基本原理是使用电话话音以外的频率来传输数据，使用户在浏览internet的同时可以打电话，不影响通话质量和网络下载速度。ADSL可以根据双绞线的优劣和传输距离的远近，动态地调整用户的访问速度。电缆调制解调器cable modem 又名线缆调制解调器，用于有线电视网进行数据传输。GPRS它使移动通信和数据通信相结合。GPRS不用连续占用专用的无线信道而保持在线状态，只有当数据包发送或接受的时候系统才会分配无线信道。计费以通信的数据量为主要依据，体现了“得到多少，支付多少”的原则。WAP是能使手机、呼机和其他无线设备显示因特网内容的技术，这项技术被称为无线应用协议。手机上网是WAP技术当前的主要应用范畴，用户可以利用内置的超微浏览器在手机上收看，这种模式可兼容现在的HTTP模式。Bluetooth是一种短距离无线通信标准。分布式多媒体计算机系统的基本特征： 1)多媒体综合性 2)资源分散性 3)运行实时性 4)操作交互性 5)系统透明性分布式多媒体系统就是把多媒体信息的获取、表示、传输、存储、加工、处理集成为一体，运行在一个分布式计算机网络中。分布式多媒体系统的层次结构：⒈多媒体接口层，为系统的最底层，该层的功能是根据各种具体多媒体设备，实现模/数和数/模转换。⒉多媒体传输层，根据要传输的多媒体数据量大小而分别采用不同的传输策略。⒊流管理层，流是对于特定媒体相关数据的抽象。⒋多媒体表示层，多媒体表示层是在多媒体流管理层之上更高的一层，它对多媒体流在空间和时间上进行协调。⒌应用层，可根据不同应用分别配置相应软件。CSCW是支持有着共同目标或共同任务的群体性活动的计算机系统，并且该系统为共享的环境提供接口。CSCW具有以下特点：群体性，交互性，分布性，协同性。CSCW关键技术：接口技术，协调机制，并发机制，分布式多媒体数据库和超文本技术。网格是把整个internet整合成一台巨大的超级计算机，实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。导致网格兴起的主要原因在于海量的信息和数据需要处理。网格试图实现互联网上所有资源的全面连通，消除信息孤岛和知识孤岛，实现信息资源和知识资源的自能共享。网格会带来一场互联网的，将改变整个计算机世界的格局，从而给世界各个行业带来巨大的效益。第十章多媒体应用系统可视电话和网络视频会议系统是多媒体网络通信核心技术党代表。基于PC可视电话系统组成：调制解调器，视频捕获卡，摄像机以及相应的软硬件系统。影响可视电话性能的关键因素是传输媒体带宽和计算机的实时处理能力。带宽是指单位时间内有多少数据可以通过传输通道。 H.323协议视频会议系统，定义的设备包括终端、网关、网口管理器、多点控制器和多点控制单元等设备。多点控制单元MCU在多于两个用户进行通话的时候是非常重要的，MCU主要负责控制多用户连续、数据和声音混合以及视频数据的切换等。IP网络即信息交换网络上进行的呼叫和通话，而不是在传统的公众交换电话网络上。IP电话分3类：PC到PC，PC到电话，电话到电话。 IP遵循一个宗旨：利用Internet传送语音。VOD系统是用来按用户需求将视频信息通过宽带发布的一种方式，VOD的设计采用client/server模型。并且适应分布式计算机环境。TVOD由信源、信道和信宿组成。第一章第一章多媒体技术概要（一）课程内容 1.1 多媒体的定义多媒体是指信息表示媒体的多样化，多媒体技术将文本、图像、图形、声音、音乐、视频、动画等多种媒体形式集成起来，以更自然的方式使用信息和计算机交互，使表现的信息图、文、声共茂。 1.2 多媒体涉及的几个概念媒体：一是指用以存储信息的实体，如磁盘，光盘，半导体存储器；二是指信息的载体，如数字，文字，声音，图像，图形和视频等。媒体分类：㈠感觉媒体（指能直接作用于人的感官，使人能直接产生感觉的一类媒体）、㈡表示媒体（为了加工、处理和传输感觉媒体而人为地研究、构造出来的一种媒体。其目的是将感觉媒体从一个地方向另一个地方传送，以便于加工和处理。表示媒体包括各种编码方式。）、㈢显示媒体（指感觉媒体与用于通信的电信号之间转换用的一类媒体。包括输入显示媒体和输出显示媒体）、㈣存储媒体（用来存放表示媒体，以方便计算机处理加工和调用，主要指与计算机相关的外部存储设备。）、㈤传输媒体（用来将媒体从一个地方传送到另一个地方的物理载体，是通信的信息载体。）。多媒体技术就是利用计算机技术把文本、声音、视频、动画、图形和图像等多种媒体进行综合处理，使多种信息之间建立逻辑连接，集成为一个完整的系统。多媒体的特征1)化：信息媒体的多样化。2)集成性：不仅指多媒体设备集成，也包含多媒体信息集成或表现集成。 3)交互性：是使人们获取和使信息变被动为主动的最为重要的特征。4)实时性：主要指类似声音和视频这样的媒体，与时间密切相关，要求多媒体技术必须支持实时处理。多媒体计算机技术及发展 1)MPC1：1990年 2)MPC2：1993年 3)MPC3：1995年多媒体技术主要内容： 1)多媒体软硬件平台 2)专用芯片：DSP3)数据压缩及编码技术4)多媒体同步：集成模式：制约式、交互式和协作式。 5)多媒体网络与分布式处理技术 6)信息的组织与管理 7)多媒体数据存储 8)虚拟现实技术多媒体技术的应用 1)视频点播 2)电子出版物 3)医疗卫生 4)游戏与娱乐5)计算机视频会议6)多媒体展示和信息查询系统 7)MIS与OA 8)传媒、广告 9)教学管理系统 10)移动卫星多媒体计算机五部件：个人计算机，只读光盘驱动器、声卡、windows3.1操作系统和一组音箱或耳机。多媒体信息处理的最终目标是能够跨越各种不同网络和设备，透明地、强化地使用多媒体资源。多媒体四个关键技术：多媒体数据的处理、多媒体数据的存储、多媒体数据的传输、多媒体输入/输出技术。把音频和视频信号数字化，以数字信息的形式载入到计算机存储器中。数字化后的音频和视频数据量非常大，需要进行压缩和大容量的存储器；音频和视频的输入和输出是实时的，需要高速处理。提高计算机处理能力的最重要的手段是增加处理器中晶体管的数量。多核处理器的出现为解决这一矛盾提供了方法。多核处理器是指将多个运算核封装在一个芯片内部，从理论上讲，由于将两个或者多个运算核封装在一个芯片内部，节省了大量的晶体管和封装成本，同时还能显著提高计算机处理器的性能。多核处理器的兼容性强。多媒体信息具有巨大的数据量，尤其是动态图形和视频图像，庞大的数据量在网络上进行传输，根本无法保证数据的实时传输。因此，对多媒体信息进行实时压缩和解压缩是非常有必要的。如今已经成为多媒体数据压缩标准的JPEG和MPEG。一种有效的压缩算法应考虑媒体的种类、应用的对象、应用要求以及采用的设备特性等因素。压缩时间长一点不要紧，关键是解压缩还原的时候速度要快，并且尽量少用专用设备，这种一个生产者多个消费者的应用在压缩算法非对称时是最理想的。多媒体信息本身的特点使得各种信息之间在时间上具有一定的相关性，声音和图像，两者都是时间的函数。多媒体以3种模式相互集成：制约式、交互式、协作式。 1.3 多媒体与网络数字化的网络集多媒体信息的获取、存储、处理、编辑、综合、传输于一体，并运行于网络上，网络的任意节点都可以共享网络上的多媒体信息。多媒体技术要充分发展其对多媒体信息的处理能力，必须与网络技术结合。如前所述，多媒体信息要占极大的存储空间，即使将数据压缩，对单机用户来说拥有丰富的多媒体信息仍然十分困难。运行于网络环境下的多媒体系统，因为能够不受时空地使多个用户透明地共享网络上的数据，特别是多个用户同时对同一个数据文件进行编辑，这使得多媒体技术有了广泛的应用。 1.4 多媒体与光盘存储器1.5 多媒体的技术研究与应用开发多媒体的应用主要包括以下几个方面：1，音/视频流点播。2.电子出版物。3.医疗卫生。4.游戏与娱乐。5.计算机视频会议。6.多媒体展示和信息查询系统。7.MIS（管理信息系统）和OA（办公自动化）。8.传媒、广告。9.教学管理系统。10.移动卫星。从市场驱动背景来看，有两大方面的原因在推动多媒体与通信技术结合产品的迅速发展：一是网络技术的飞速发展和网络建设的快速推进，二是企业、家庭及个人对多媒体信息的需求。从技术背景看，通信是传输信息的工具，无论是从本地还是从远程获取信息，必须使用通信手段，多媒体计算机与通信本来就是一个信息系统中的两个部分。第二章除了较高的配置的计算机主机硬件以外，多媒体硬件系统还需要音频/视频处理设备、光盘驱动器、媒体输入/输出设备。CPU：central processing unit 即处理器。CPU的内部结构可分为控制单元、逻辑单元和存储单元三大部分。多媒体接口卡是根据多媒体系统获取、编辑音频或视频的需要而插在计算机上的，以解决各种媒体数据输入、输出的问题。常用的接口卡有声卡、显卡、视频压缩卡、视频捕捉卡、视频播放卡、光盘接口卡。输入设备除了基本的键盘、鼠标等以外，还包括手写板、磁卡设备、IC卡设备、条码设备、图像扫描仪、数字化仪、触摸屏、视频卡和视频捕获卡等。I/O设备分为三类：输入设备、输出设备，以及用于网络通信的通信设备。市场上主要有3种手写板：电阻压力板、电磁感应板和电容触控板。电阻压力板是早期手写板采用的技术，由于其原理简单，工艺不复杂，成本较低，价格便宜。由于它是通过感应材料的变形来工作的，材料容易疲劳，使用寿命较短。图像扫描仪主要性能指标1)分辨率：以每英寸上扫描象素点数(DPI)表示，通常在300DPI到1200DPI之间。2)灰度，指图像亮度层次范围，目前可达250 3)色彩度，指彩色扫描仪支持的色彩范围，用象素的数据位表示，如24位支持16M色。4)速度，在指定的分辨率和图像尺寸下的扫描时间。 5)幅面：支持的幅面大小，如A4、A3扫描仪按幅面大小可分为台式扫描仪和手持式扫描仪。按图像类型分为灰度扫描仪和彩色扫描仪。触摸屏一般由两部分组成：触摸屏控制卡和触摸检测装置。按介质及工作原理，可分为电阻式、电容式、红外线式和声表面波式。视频捕获卡是把输入的模拟视频信号，通过内置芯片提供的捕捉功能转换成为数字信号的设备，一般以内置的PCI插卡为主。昂贵的视频捕捉卡带有视频压缩功能。CRT由德国人布劳恩发明，也称为布劳恩管。LCD是一种低电压、低功耗器件。优点是平面型，结构简单，显示面也可以任意加工制作，使用寿命较长。它是反射型的，在室内条件下也容易观看。没有辐射，不伤人体，画面不会闪烁，可以保护眼睛。可悬挂于墙上。分子具有方向性的液体则称为液态晶体，简称为液晶。液晶显示器是一种液晶利用光调制的受光型显示器件。等离子显示器（PDP）又称为电浆显示器，为最新一代显示器，其特点是厚度极薄、分辨率高，占用极少的空间。优点：可以制作出超大尺寸的平面显示器；与阴极射线管不同，它没有弯曲的视觉平面，视角扩大到160度以上；等离子显示器的分辨率等于甚至超过传统的显示器，所显示图像的色彩也更亮丽、更鲜艳背投是相对于正投来说的，背投和正投的原理是一样的。正投是观察者和摄投影机位于反射屏幕的同一侧，观察者看到的是屏幕反射回来的光；背投是观察者和投影机位于屏幕的两侧，从投影机投射出来的光照射到半透明的背投屏幕时会有部分光透过，观察者看到的是投射出来的光。显卡的主要作用是对图形函数进行加速。图形加速卡拥有自己的图形函数加速器和显存，这些都是专门用来执行图形加速任务的，因此可以大大减少CPU所需处理的图形函数。通常所说的加速卡的性能，是指加速卡上的芯片集能够提供的图形函数计算能力，这个芯片集通常也称为加速器。打印机分为击打式和非击打式，击打式以点阵式打印机为主，非击打式以激光打印机和喷墨打印机为主。击打式打印机可同时多层打印，是该类打印机独有的。激光打印机的图形功能和字体变化功能方面是其他打印机无法替代的。调制解调器modem的作用是利用模拟信号传输线路传输数字信号。电子信号可分为模拟信号和数字信号。传统的调制解调器已经逐渐被ADSL调制解调器所取代。ADSL采用复杂的数字信号处理技术和新的数据压缩算法，使大量的信息得以在网络上高速传输。网卡(NIC，network interface card)，它的主要工作原理是整理计算机上发往网线上的数据，并将数据分解为适当大小的数据包在网络上发送出去。每个网卡有惟一的网络节点地址。 USB设备通用串行总线，主要特点：即插即用、可热插拔，并具有自动配置能力。1.1版12Mb/s，2.0版480Mb/s。USB采用四线电缆，其中两根是用来传递数据的串行通道，另两根为下游设备提供电源。USB支持4种基本的数据传输模式：控制传输、等时传输、中断传输及数据块传输。USB设备具有以下几个方面的优点：使用方便，速度快，连接灵活，供电，支持多媒体，低成本。USB设备硬件结构：USB采用级联星型拓扑，该拓扑由3个部分组成：主机，集线器，功能设备。USB软件结构：1.USB总线接口。2.USB系统。 USB最多可支持5个非hub层以及127个外设。数码产品分为数码影像类、数码随身听和掌上电脑三大类。第三章数字图像处理技术图像通常包括动态图像和静态图像。动态图像包括动画和视频信息，是连续渐变的静态图像或图形的序列，沿时间轴顺次更换显示，从而构成运动视感的媒体。美国信息论专家香农第一次提出数字化信息的基本单位——比特。信号的数字化处理包括两个步骤：一是时间上的离散化，即采样；二是幅度上的离散化，即量化。数字化后的信号，将全部变为0和1的序列，这使得信息的采集、存储、传输、复制、加工变得很方便。采样也叫抽样，是信号在时间上的离散化。量化是对幅值进行离散化。采样长度就是采样时间的长度。色彩可用色调、饱和度、亮度来描述。其中色调与光波的波长有直接关系，亮度和饱和度与光波的幅度有关系，色调由物体表明反射的光线中什么波长占优势决定。黄色的亮度最高。饱和度是指颜色色调的表现程度，某种色调越接近白色或灰色，它的饱和度越小。在饱和的彩色光中增加白光，相当于增加了光能，因而变得更亮了，但是它的饱和度却降低了。RGB色彩可分为真彩色、伪彩色、调配色。真彩色是指图像中的每个像素都分为R、G、B三个基本分量，每个基色分量都直接决定其基色的强度，这样产生的色彩称为真彩色。伪彩色图像的每个像素值实际上是一个索引值或者代码，该代码作为色彩查找表中某一项的入口地址。调配色的获取是通过每个像素占的R、G、B分量分别作为单独的索引值进行变换。调配色的效果比一般伪彩色要好。Lab：是由RGB转为HSB或CMYK模式的桥梁，发光率、颜色A、B。 HSB颜色模式指色调、饱和度、亮度。 CMYK是彩色印刷使用的一种颜色模式。YUV电视系统常用模式，由一个亮度信号Y和两个色差信号U、V组成。能够对多媒体数据进行压缩的前提是因为数据存在大量的冗余，数据压缩的目的就是尽可能地消除这些冗余。冗余分为以下几类：1)统计冗余：大量统计特征上的重复2)信息熵冗余：信息熵定义为一组数据所表示的信息量，等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和 3)结构冗余：图像纹理 4)知识冗余：5)视觉冗余：人的视觉对某些细节不敏感数据压缩的目的是便于存储和运输，为了对数据进行还原，必须进行解压缩，因此数据压缩通常包括对数据的编码和解码。解码的运算复杂度低于编码。评价压缩算法的指标：压缩比，算法的复杂度和运算速度，失真度。行程长度编码RLE，又称游程编码，就是把一系列的重复值用一个单独的值加上一个计数值来取代。哈夫曼编码：步骤：1.统计信源符号出现的概论。 2.将信源符号按概率递减顺序排列。3.把两个最小的概率值加起来，作为一个新组合符号的概率。 4.重复（2）和（3）的操作，直到概率和达到1。5.在每次合并信源时，将合并的信源分别标记为1和0。（比如概率小的标为1，概率大的标为0。）6.寻找从每一信源符号到概率为1的路径，记录下路径下的1和0。 7.对每一符号写出1和0序列。缺点：1)必须精确统计出每个值出现的频率，通常需要两遍操作，速度慢。 2)译码过程比较复杂，对于位的增删比较敏感。词典编码属于无损压缩技术。预测编码可分为线性预测和非线性预测编码。前者常被称为差分脉冲编码调制，即DPCM，其基本原理是基于图像中相邻象素之间的相关性，每个象素可通过与之相关的几个象素来进行预测。可以获得比较高的编码质量，并且实现起来比较简单，因此被广泛地应用于图像压缩编码系统。但是它的压缩比不高，而且精确的预测有赖于大量的先验知识，并且必须进行大量的非线性运算，一般不单独使用，而是与其他方法结合使用。矢量图是用数学方法描述的一系列点、线、弧和其他几何形状，存放这种图使用的格式称为矢量图格式。位映像图也叫光栅图，这种图由像素组成。矢量图与位图相比：位图文件要比矢量图文件显示的快；矢量图侧重于绘制，而位图偏重于获取、复制。矢量图和位图之间可以用软件进行转换。影响位图大小的因素主要有：图像分辨率和像素深度。矢量图的大小则主要取决于图的复杂程度。BMP文件由3部分组成：位图文件头数据结构，位图信息数据结构和位图阵列。 GIF定义了允许用户设置背景为透明的属性，GIF格式可在一个文件中存放多幅彩色图形图像，它们可以像演幻灯片那样显示或者像动画那样显示，使用LZW压缩算法来存储。 TIF格式TIFF格式，与硬件无关，可以用几种不同的压缩方法压缩。文件组成：文件头、参数指针表、参数数据表。PNG文件格式其目的是代替GIF和TIFF格式，同时增加了一些GIF不具备的特性。PNG使用无损数据压缩算法。PNG的优点：兼有GIF和JPEG的色彩模式；PNG能把图像文件压缩到极限以利于网络传输，但又能保留所有与图像品质有关信息的解决方案；更优化的传输显示；透明图像在制作网页图像的时候很有用；GIF图像在不同系统上所显示的画面也不会一样，PNG却可以使图像在所有系统上的显示图像完全相同。PNG的缺点：㈠GIF可以存储多张GIF图像到一个文档中，从而做出动画效果。PNG则不支持动画应用。㈡PNG采用的是无损压缩方式，尽管相同质量的PNG图像文件比JPEG的要小，但是JPEG可以适当地牺牲画面质量而取得比PNG更小的尺寸。㈢PNG不支持CMYK的模式。JPEG标准规定了两种工作方式：顺序方式和渐进方式。JPEG属于有损压缩方式。JPEG基本系统编码过程(重点掌握) 1)二维DCT正变换，减少图像数据的相关性2)系数量化，根据压缩精度将变换系数用较少的比特数表示3)编码模型与统计事件，压缩系数矩阵中的零数据，从量化后的系数矩阵生成供熵编码的统计事件。直流分量使用DPCM编码。4)熵编码：基本系统中用哈夫曼编码，扩展系统中可用算术编码。 5)数据结构，增加一些附加信息 JPEG的压缩效果0.15b/p，可识别，0.25有用，0.75极佳，1.5时基本与原图无区别。 JPEG2000放弃了JPEG所采用的以离散余弦变换算法为主的区块编码方式，而改用以离散小波变换算法为主的多解析编码方式。JPEG2000与JPEG相比的优势：高压缩率；同时支持有损压缩和无损压缩；渐进传输；感兴趣区域压缩。Mpeg算法面临的问题：仅靠帧内编码无法到达在保证画面质量前提下的高压缩比。为满足高压缩比和随机访问的要求，mpeg采取了预测和插值两种帧间编码技术。 MPEG-1视频压缩算法(重点掌握)系统参数：图像宽度、高度、象素长宽比、帧速率、位速率、缓冲区尺寸等。算法的两个基础：基于16X16块的运动补偿缩减时间冗余，基于变换域(DCT)的缩减空间冗余技术。1)缩减时间冗余度：3种画面：内帧(I)、预测帧(P)和内插帧(B)。内帧经过中度压缩，可作为随机访问点，预测帧以参考帧(I或P)为基础进行编码，它又是后面预测帧的参考帧。内插帧压缩比最高，它需要前后两参考帧，但它本身不能作为参考帧使用。MPEG选择16X16宏块作为运动补偿单元。每8个画面有一个内帧：IBBBPBBBI。2)缩减空间冗余度：类似于JPEG，三个阶段：第一阶段基于DCT的正交变换，计算变换系数，第二阶段对变换系数进行量化，将数据按Z字形扫描顺序重新组合，最后对变换系数按行程编码进行熵编码，以达到进一步压缩的目的。MPEG考虑3种画面：内帧（I）、预测帧（P）、内插帧（B）。这样做的重要性：一是考虑随机访问视频存储的重要性，二是运动补偿插值可显著降低位速率。运动补偿预测是应用最广泛的减少时间冗余的方法。MPEG一个重要特色就是采用了运动补偿插值技术，它可以改善随机访问性能，提高视频的图像质量。MPEG减少空间冗余方法：混合使用变换编码、基于视觉加权的标量量化、行程编码等技术。MPEG—4主要应用于可视电话、视频邮件和电子新闻等，对传输速率要求低，利用很窄的带宽，通过帧重建技术，压缩和传输数据，以求以最小的数据获得最佳的图像质量。MPEG—4的主要特征：基于内容的压缩，更高的压缩比，时空可伸缩性。 H.261是CCITT制定的国际上第一个视频压缩标准，主要用于电视电话和会议电视。H.263是用现在的电话网传输活动图像。 H.263提供两种编码模式：帧内编码、帧间编码。QCIF图像的帧结构，从上到下为：图像帧，块组，宏块，块。第四章音频信号和声卡声音根据其内容可以分为波形声音、语音和音乐。波形声音是数字化了的声音。计算机处理的声音信号是经过离散化了的信号，因此通常又称为音频信号。声音的连续性表现在：一是时间上的连续性，二是幅度上的连续性。声音分为规则声音和不规则声音：不规则声音指不包含任何信息的噪声。规则声音又分为语音、音乐和音效。多媒体技术主要研究的是规则声音中的语音和音乐信号。声音有三个要素即音调、音强、音色。带宽越宽，音质也越好。人的听觉器官能感知的频率范围为20HZ——20000HZ。当声音弱到人的耳朵刚刚可以听到时，我们称此时的声音强度为“听阈”。当声音强到使人耳朵感到疼痛，这个阈值称为“痛阈”。在听阈和痛阈之间的区域就是人耳的听觉范围。为了使计算机能够进行处理必须首先对声音在时间轴和幅度两个方面进行离散化。常见音频文件格式wav、au、aiff、snd、rm、mp3等。wav称为波形文件格式，是一种资源交换文件格式(RIFF)。声音质量客观质量主要用信噪比SNR。主观质量常用的有平均意见得分(MOS)。数据语音通信中，分为：广播质量、网络质量、通信质量和合成质量。以WAV为扩展名的文件格式称为波形文件格式。AVI是audio video interleaved（音频视频交错）的英文缩写，它是microsoft公司开发的一种数字音频和视频文件格式。但AVI并未限定压缩标准，用不同的压缩算法生出的AVI文件，必须使用相应的压缩算法才能播放出来。RM文件是由realnetworks公司开发的一种新型流式视频文件格式，用来在低速网络上实时传输活动视频图像。数字化的音频信号必须经过编码处理，以适应存储和传输的要求。脉冲编码调制(PCM)：脉冲编码调制是概念上最简单、理论上最完美的编码系统，但也是数据量最大的编码系统。声音数字化有两个步骤：第一步是采样，就是每隔一段时间间隔读一次声音的幅度；第二步是量化，就是把采样得到的声音信号幅度转换成数字值。量化有两种：一类是均匀量化，即线性量化，如果采用相等的量化间隔对采样得到的信号进行量化；一类是非均匀量化，即非线性量化，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。增量调制（DM）是一种预测编码技术，由于DM编码的这种简单性，它已成为数字通信和压缩存储的一种重要方法。增量调制虽然简单，但存在两个缺点：一是会出现斜率过载，二是会产生粒状噪声。在开始阶段，增量调制器的输出不能保持跟踪输入信号的快速变化，这种现象称为增量调制器的“斜率过载”；粒状噪声是指在输入信号缓慢变化的部分，即输入信号与预测信号的差值接近零的区域，增量调制器的输出会出现随机交变的“0”和“1”。为了解决这个矛盾，人们就提出了自适应增量调制（ADM）方法，这种方法的特点是使增量调制器的量化能随信号自动调整。自适应脉冲编码调制（APCM）是根据输入信号幅度的均匀根值的变化来改变量化增量的一种编码技术。差分脉冲编码调制（DPCM）是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。基本思想：根据过去的样本去估算下一个样本信号的幅度的大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而减少了表示每个样本信号的位数。自适应差分脉冲编码调制：综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。思想：⒈利用自适应的思想改变量化增量的大小，即使用小的量化增量去编码小的差值，使用大的量化增量去编码大的差值⒉使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。MP3是MPEG audio layer3 音频文件的缩写，它是一种超级声音文件的压缩方法，具有文件小，音质佳的特点。MPEG是由音频和视频两部分组成的。在MPEG音频编码模式中，MP3功能最强大；在同样的音质条件下，MP3需要的数据量最小；在同样的数据量条件下，MP3音质最好。MP3对音频信号采用的是有损压缩的方法，虽然它是一种有损压缩的方法，但它以极小的是真换来较高的压缩比。乐器数字接口MIDIMIDI是乐器数字接口的英文缩写，是数字音乐/电子合成乐器的统一国际标准。声卡可分为PCI声卡和USB声卡。声卡所支持的声道数是反映声卡技术发展的一个标志。单声道：我们可以明显的感觉到声音是从两个音箱的中间传递到我们的耳朵里的。立体声：声音在录制过程中被分配到两个的声道，从而达到了很好的声音定位效果。四声道环绕规定了4个发音点：前左、前右、后左、后右，听众则被包围在中间，同时还可以增加一个低音音箱，以加强对低频信号的回放处理。声卡的功能：⒈录制、编辑和回放数字声音文件。⒉控制各声源的音量，并混合在一起，以便数字化。⒊在记录和回放数字文件时进行压缩和解压缩，以节省存储空间。⒋采用语音合成技术，能让计算机朗读文件。⒌MIDI接口。声卡的工作原理：主机通过总线将数字化的声音信号以PCM的方式送到数模转换器（D/A），将数字信号变成模拟的音频信号。同时又可以通过模数转换器（A/D）将麦克风或CD的输入信号转换成数字信号，送到计算机进行处理。在数字音频信息获取与处理过程中，顺序为：采样，A/D转换，压缩、存储，解压缩，D/A转换。让人与计算机自由地交谈，机器能够听懂人讲话，是语音识别技术最终实现的目标。语音识别技术主要包括特征提取技术，模式 </div> <div class="preview-ft"> <div class="preview-title"> 因篇幅问题不能全部显示，请点此查看更多更全内容 <div class="model-fold-cover-bd"><a href="https://www.tang5.com/mlogai/nreeeaovaxx/" target="_blank">查看全文</a></div> </div> </div> <script type="text/javascript" src="https://jss.gamedaodao.com/pc/wenzhang/detail_left.js"></script> </div> </div> <script type="text/javascript" src="https://jss.gamedaodao.com/pc/wenzhang/wenzhang/detail_foot.js"></script> <script type="text/javascript" src="https://jss.gamedaodao.com/pc/share_right_gg1.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/pc/share_right_xgzx.js"></script> <script type="text/javascript" src="https://jss.gamedaodao.com/pc/share_right_gg2.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/pc/share_right_rmyd.js"></script> </div> <div class="n_right"> <script type="text/javascript" src="https://jss.gamedaodao.com/pc/share_cebian_gg1.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/pc/share_cebian_rmht.js"></script> <script type="text/javascript" src="https://jss.gamedaodao.com/pc/share_cebian_gg2.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/pc/share_cebian_rmtw.js"></script> <script type="text/javascript" src="https://jss.gamedaodao.com/pc/share_cebian_gg3.js"></script> <script type="text/javascript" src="https://jss.huatuo6.com/pc/share_cebian_wntj.js"></script> </div> </div> <script type="text/javascript" src="https://jss.huatuo6.com/pc/tj_foot4.js"></script><div class="foot"> <div class="smain"> <div class="foot_ano clearfix">  <div class="foot_mesg"> Copyright © 2019- gamedaodao.com 版权所有 <a href="https://beian.miit.gov.cn/" target="_blank" style="color:#fff">湘ICP备2022005869号-6</a> 违法及侵权请联系：TEL:199 18 7713 E-MAIL:2724546146@qq.com 本站由北京市万商天勤律师事务所王兴未律师提供法律服务 </div> </div> </div> </div> <script type="text/javascript"> const currentYear = new Date().getFullYear(); $('.currentYear').html(currentYear) </script>