多媒体的发展方向:从更深层次、从技术故障本身开始让技术在更基本的层面上解决普通人。 1.1 多媒体技术的基本概念 1.1.1 媒体:一是指用以存储信息实体,如磁盘磁带半导体存储器等;二是指信息的载体如数字、文字、声音、图形图像视频等。
CCITT的媒体定义和分类:1.感觉媒体:直接作用与人的感官,使人产生直接的感觉的媒体;2.表示媒体:为了加工处理和传输感觉媒体而人为的研究构造的媒体(编码方式)可分三类,按时间划分为离散媒体和连续媒体,按空间属性划分为一维、二维、三维媒体,按生产属性划分为自然媒体和合成媒体;3.显示媒体:指感觉媒体用于通信的电信号之间转换的一类媒体(摄像机显示器)、4.存储媒体:用来存放媒体,以便计算机调用(存储器);5.传输媒体:将媒体从一个地方传到另一个地方的物理载体(网线)
1.1.2 多媒体:是指信息表示媒体的多样化。
多媒体的重要特征:1.化,指多媒体的多样化:2.集成性,指多媒体设备、信息、表现的集成;3.交互性,是人们获取和使信息变被动为主动的最为重要的特征;4.实时性,也为动态性指多媒体就是中涉及的媒体。 1.2 多媒体计算机技术的发展历史
Mac:1984 apple Mac Bitmap windows icon CD-I:1986 PHILIPS and SONY DV-I:1987 RCA AVC:19 IBM
MPC:1990 HHILIPS
MPC1组成:PC、CD-ROM、声卡、Windows 3.1、音箱或耳机及性能参数
1.3 多媒体技术
多媒体信息处理的最终目标:能跨越各种不同的网络和设备,透明的、强化的使用多样媒体资源。
多媒体系统关键技术分为:多媒体涉及的处理、存储、传输和多媒体输入输出技术。 1.3.1 多媒体软件和硬件平台:实现多媒体系统的物质基础
多媒体计算机软件和硬件系统组成:多媒体计算机硬件系统、多媒体核心系统软件、多媒作平台与工具、多媒体创作与编辑软件、多媒体应用系统 1.3.2 专用芯片:一种是固定功能的芯片,一种是可编程的处理器。
处理音频和视频:先要把音频和视频喜欢数字化,以数字信息的形式载入计算机存储器中,再对其编辑处理。 1.3.3 数据压缩及编码技术
PCM脉冲编码调制:1984 Oliver 有效的压缩算法应考虑:媒体的种类、应用的对象、应用的要求以及采用的设备特性等因素。 1.3.4 多媒体同步
多媒体数据进行处理时,不仅要考虑各种媒体相对的性,为了较好的信息显示效果,好药之一保持媒体之间在实践和空间上的关联。为了定义不同媒体之间的相互关系,系统应准许用户规定不同媒体之间如何实现彼此之间的复合同步。 多媒体信息的三种相互集成模式:
1.制约式,指一种媒体的状态转移或激活影响到另一种媒体。
2.协作式,指两种以上的媒体信息同时存在。
3.交互式,指媒体上含有的信息变换成另一种媒体信息。1和2要求按事件发生的顺序同步,属基本同步。
1.3.5 多媒体网络与分布式处理技术:
多媒体信息处理能力必须与网络技术结合才能充分发挥。 分布式处理技术的主要研究内容:如何在网络环境下将复杂任务分解,并借助于网络环境中的不停计算机完成任务。 1.3.6 信息组织与管理
处理大批非规则数据的主要途径:一是扩展现有的关系数据,二是建立面向对象的数据库系统,以存储和检索特定信息。
超媒体:一种新型(天然)的信息管理方法,一般采用面向对象的信息组织和管理。信息的组织将不再是线性的,二是按某种方式以非线性的形式进行存储、管理和浏览,这样,用户对信息的使用更加方便,更加灵活的信息检索形式。
超文本和超媒体适合于表达多媒体信息。 1.3.7 多媒体的数据存储:SAN存域网、服务器存储技术:直接连接存储技术DAS和存储网络技术(很高的安全性且动态扩展能力极强) 1.3.8 虚拟现实(VR)技术:就是采用计算机就是生成一个逼真的视觉、听觉、触觉及嗅觉的感觉世界,用户可以用人的自然技能对这个生成的虚拟实体进行交互参考。 VOXEL MAN虚拟人体:德国汉堡Eppendorf大学
1.3.9 人机界面设计:其计算机系统必须能够采用自然语言或者足以表达信息的图像方式来回答用户的问题。其目的在于通过对用户需求的解释达到一种人机之间较好的通信能力, 其研究方向为:1.文件的语言处理模式,包括语音识别和自然语言理解。2.手势分析和理解模式设计。3.上述两点的通信融合,是对用户需求的互补。4.多模式环境中的对话管理,保证连续的对话过程。5.任务的优化图形表达,易于对象理解的方式。
1.3.10 高速多媒体通信技术:是指为满足新一代信息系统中实时多媒体信息传输的需求,网络带快1000Gbps以上,且服务质量控制(QoS),以适应不同媒体传输质量要求。
骨干路由器的要求:至少1Gbps以上交换能力,单个端口速率甚至达到622Mbps 1.4 多媒体技术的应用
只要应用包括:1.音频视频流点播、2.电子出版物、3.医疗卫生、4.游戏与娱乐、5.计算机会议视频、6.多媒体展示盒信息查询系统、7.MIS管理信息系统与OA办公自动化系统、8.传媒和广告、9教学管理系统.、10.移动卫星。
1.5 多媒体技术的发展趋势:1.智能化,其目的在于实现人机的自然交互。2.三维化,重点在于将计算机视觉技术和图形技术的内容结合起来,实现增强实现技术。
2.1 概述。多媒体计算机的组成:1.主机,2.多媒体转接卡,3.多媒体外部设备,按功能分:音频视频输入设备、视频视频输出设备、人机交互设备、存储设备。
2.2 常用的I/O设备:输入设备、输出设备、以及用于网络通信的通信设备。
2.2.1 输入设备:1.手写板,分电阻压力板、电磁感应板、电容触控板。2.图像扫描仪,其性能参数为分辨率、灰度、色彩度、速度、幅度。3.触摸屏,按介质工作原理分电阻式、电容式、红外线、声表面波。
2.2.2 输出设备:1.CRT显示器,大致分两类,一是用于图像处理领域的图像显示器,二是用于图像处理领域的矢量方式图形显示器。按使用种类分存储型、随机扫描型、光栅扫描型。2.液晶显示器LCD,低电压、低功耗,MOS-IS可直接驱动,与系统驱动切合度好。
液晶,指分子具有方向性的液体侧称为液态晶体。按技术性质分单纯矩阵驱动(TN、STN、FLCD、)和主动矩阵驱动(MIM、TFT、PD)3.等离子显示器PDP, 又称电浆显示器。4.背投电视,按投影种类分CRT、 LCD、 DLP L、COS。5.显卡,主要用于对图形函数进行加速。 其性能决定于显存的容量、显存的数据位与带宽、显存的速度。6.打印机,最传统的标准计算机输出设备。分点阵式打印机、激光打印机、喷墨打印机。
2.2.3 通信设备:1.调制调解器,作用是利用模拟信号传输线路传输数字信号。ADSL调制调解器的三种线路编码:抑制载波幅度和相位 CAP、离散多音复用 DMT、离散小波多音复用 DWMT。2.网卡,局域网中最基本的部件之一,主要作用是整理计算机上发往网线上的数据,并将数据分解为适当大小的数据包后在网络上发送出去。 2.3 存储设备及存储技术
2.3.1 存储设备 2.3.2 存储技术:1.NAS网络附加存储;2.SAN存储局域网;3.DAS直接附加存储;4.IP存储;5.光存储器;6.虚拟存储,其好处是提高存储利用率,降低成本,简化管理并且具有开放性、扩展性、管理性方面的优势。
2.4 USB设备:USB为通用串行总线,其优点在于:使用方便,可以热插拔、速度快、供电、支持多媒体、低成本。
2.4.1 USB的硬件结构:采用四线电缆,信号定义由2条电源线和2条信号线组成。USB工作方式是基于令牌的总线,其主控制器广播令牌,总线上的设备检测令牌中的地址是否与自身相符,通过接收或发送数据给主机来响应。其通过支持悬挂与恢复操作来管理其总线电源。USB采用主机、集线器、功能设备来组成级联星形拓扑结构。
2.4.2 USB的软件结构;1.总线接口;2.USB系统,由主控制驱动程序、USB驱动 程序、USB客户软件组成。
USB主机的功能:检测链接和移除的USB设备;管理主机和USB设备;链接USB状态和活动统计;控制主控制器和USB设备间的电气接口。 2.4.3 USB的数据流传输方式:其分同步传输方式、中断传输方式、控制传输方式、批传输方式。
2.4.4 US B的应用 2.4.5 USB产品 2.5 数字摄像设备
2.5.1 CCD:CCD技术和结构主要考虑最佳的光学属性和图片质量,CCD传感器原理是以横竖线短阵形式排列,各像素点包含一个光电二极管和控制相邻电荷单元,光电二极管将光子转化为电子,聚焦的电子数量相应于光强度,并转换成各自的电荷包单元。
CMOS:采用标准硅处理方法加工。
2.5.2 数字摄像头:主要参数是为最大分辨率、传感器像素、接口类型、色彩位数、感光元件、最大帧数。
2.5.3 数码相机:其特征为像素、镜头、快门。 2.5.4 数字摄像机:性能决定于摄像机的镜头、光学变焦和数码变焦、静态图像存储和视频输出。
第3章 数字图像处理
1.采样,时间上的离散化;2.量化,幅度上的离散化。
3.1 信号处理基本术语
3.1.1 采样:时间上的离散化,按照一定时间间隔Δt在模拟信息x(t)上逐点采取其瞬时值。
量化:幅度上的离散化,振动幅值用二进制量化电平来表示。 3.1.2 采样长度的选择与频率分辨率:采样长度为采样时间的长短。采样时,要保证能反映信号的全貌,瞬态信号包括整个瞬态过程。
3.1.3 DFT和IDFT的定义 3.1.4 小波变换 3.2 图像数据压缩基础
3.2.1
色彩基本概念:色彩由色调、饱和度、亮度描述。色调是指某种颜色的性质和特点也就是颜色。饱和度指颜色色调的表现程度。亮度是指作用与物体表面的管线反射系数。
真彩色:是指图像中的每个像素值都分成R、G、B三基色表示。2八次方的三次方为16兆种颜色。
伪真色:每个像素是一个索引值或代码,查表后获取颜色。 调配色:优于伪真色。
显示深度与图像深度的关系:显示大于图像屏幕色彩能较为真实的反映图像文件的色彩效果;显示等于图像,调色板一致时较真实,不一致时失真;显示小于图像色彩失真。
3.2.2 色彩空间及其变换
1.RGB颜色模式,红绿蓝。2.Lab颜色模式3.HSB颜色模式,基于人心里感受。4.YUV颜色模式。
3.2.3
图像数据压缩的可能性:压缩的目的在于尽可能的消除数据冗余。
冗余分类:1.统计冗余;2.信息熵冗余;3.结构冗余;4.知识冗余;5.视觉冗余。
3.3 图像压缩算法:其指标包括压缩比、算法的复杂性和运算速度、失真度、无损编码、有损编码。
3.3.1 信息熵编码:1.行程长度编码,也是游程编码,最简单之一;2.哈夫曼编码,常用方法之一;3.算术编码,其特点为信源符号的出现概率比较接近时,比哈夫曼编码高且实现比之复杂。
3.3.2 字典编码:1.字典编码的思想,一是查找正在输入的字符序列是否在以前输入出现过,有则用指针指向早期序列代替,二是创建短语字典,而后以索引号编码;2.LZW压缩算法,主要处理输入流、输出流、和一张字符表;3.LZW解压算法,
3.3.3 预测编码:利用先前像素灰度信息,来预测当前像素灰度,把没有预测对的预测值与实际像素之间的差经过熵编码后发送接收端,接收端通过预测值和差值还原图像。其可分为线性和非线性预测编码。
3.3.4 变换编码:是指将时域信号变换到频域信号进行处理的方法。
波形编码:预测编码、变换编码、矢量量化编码、都属于波形编码。
3.3.5 模型编码: 3.3.6 混合编码:两种或以上的编码方法对图像进行编码。如JPEG、MPEG 3.4 常用图形、图像文件:计算机中的两种类型的图矢量图和位映图像。
矢量图:用数学方法描述的一系列点、线、弧和几何形状,存放为矢量图格式。 位映图像:也叫光栅图,由像素组成,存放为位图格式。
矢量图与位映图像区别:矢量图是图形指令,大小与复杂度有关,越复杂执行的指令也多显示越慢,但易于编辑便于传播,表现力受限。位映图像是图像点阵数据,大小与色彩深度、 图的尺寸有关,越大显示越慢,但表现丰富,编辑复杂文件大不利于传播。
矢量图格式:.ps、.eps、.dpf、.ai、.swf、.svg、.wfm、.emf 位映图像格式:BMP基本位图和GIF、PNG当中的部分编码。
3.4.1 BMP 文件格式:windows中采用的位映图像格式,尾名.BMP或.bmp。其由位图文件头数据结构、位图信息数据结构、位图阵列组成。
3.4.2 GIF文件格式:以数据块为单位来存储图像,由表示图像图像的数据块、数据子块、显示图形图像的控制信息块组成,也就是GIF数据流。其采用LZW算法来压缩图像。
3.4.3 PNG文件格式:为替代GIF、TIFF的位图格式。采用LZ77派生的无损算法。其定义了关键数据块即标准数据块和可选辅助数据块,其中关键数据块包括文件头数据块IHDR、调色板数据块PLTE、图像数据块IDAT、图像结束数据块IEND。
PNG优缺点:其优点在于兼有GIF和JPEG的色彩模式,既能把图片压缩到极限便于网络传播又能保留所有与图像品质有关的信息的解决方案,更优化的传输显示(交错模式,先显轮廓再显全图),其透明特性有利于减小文件便于传播,在所有系统中显示一样的图像不像GIF会变化。缺点在于PNG不能多张存储一个文件中形成GIF的动画效果,无损格式不便于有损压缩式文件减小,不支持CMYK模式即出版印刷模式。 3.5 静态图形压缩标准
3.5.1 JPEG:是国际标准化组织ISO和国际电话电报咨询委员会CCITT关于静止图像编码的联合专家组的缩写。该标准可用于自然景象或任意连续色调图像的数字数据的压缩编码和解码。
JPEG标准的工作方式:1.顺序方式,图像被分成行列的小块,从左到右从上到下的压缩与还原一次完成。2.渐进方式,先低于质量要求进行编码,然后再提高一次编码等级进行编码,只传输需要改善质量部分的信息,重复若干次知道得到质量要。解码时先解出低质量全图而后附加改善质量信息二次解码。解码随意终止适合网络环境。
JPEG的基本系统算法过程:1.二维DCT变换;2.系数量化;3.编码模型与事件统一;4.熵编码;5.数据结构。
JPEG渐进方式的实现:通过普选择法、逐次选择法、阶梯选择法组合来实现。 JPEG的压缩效果:与被压缩图像特性有关。 3.5.2 JPEG2000:同JPEG相比的优势在于压缩率高、无损压缩、渐进传输、感兴趣区域压缩。文件格式为LWF 3.6 动态图形压缩标准
3.6.1 MPEG标准概述:标准化的意义,只有实现标准化,才能带动集成电路的大量生产,大幅度降低视频压缩成本,解决不同厂商设备的通用性。
3.6.2
MPEG-1标准:由MPEG-1的 systems、video、audio、conformance testing、software simulation五部分组成。
MPEG数据流分层结构:运动图像序列、图片组、图片、块、宏块、图片切块。 MPEG算法矛盾:满足随机访问最好算法是帧内编码,但此编码无法达到无损画质下高压缩比。所以采用预测和插值两种帧间编码技术。
MPEG视屏算法的基础:基于16*16块的运动补偿缩减时间冗余,基于变换域DCT的缩减空间冗余技术。
1.缩减时间冗余:MPEG考虑内帧I、预测帧P、内插帧三种画面。因为一是考虑随机访问的重要性,二是运动补偿插值可以显著降低位速率,是应用最广泛的减少时间冗余的方法。
2.缩减空间冗余:类似JPEG编码,采用混合编码、基于视觉加权的标量量化和行程编码等技术。其分三个阶段:一是基于DCT的正交阶段,二是对变换系数进行量化后把数据按Z形扫描顺序重组合,三十对变换系数按行程编码进行熵编
码已达到进一步压缩目的。
MPEG量化器设计主要考虑:视觉加权量化、帧内块和非帧内块的量化、可调整的量化器。 3.6.3 MPEG-2标准:其制定出发点是保持通用性,使用广泛的应用良玉、比特率、 分辨率质量和服务。
MPEG-2同MPEG1的区别在于:一是能够有效的支持电视的隔行扫描格式,二是支持可分级的可调视频编码。
MPEG-2的9个组成部分:由MPEG-2的 systems、video、audio、conformance testing、software simulation、数字存储命令和控制扩展协议、先进声音编码ACC、系统解码器实时接口扩展标准、一致性控制测试。 3.6.4 MPEG-4标准:是为了满足交互式多媒体应用的标准,跟高的灵活和可靠性。 其主要用于可视电话、视频邮件、电子新闻等。其优点在于对传输速率要求较低,利用 很窄的带快,可以通过帧内重建,压缩和传输数据以求最小的数据获得最佳的图像。
MPEG-4的三个最重要特征:基于内容的压缩、更高的压缩比和时空可伸缩性。 MPEG-4同MPEG-1和MPEG-2的不同:MPEG-1、MPEG-2基于帧的规范,而MPEG-4基于媒体对象的规范,它管道了媒体对象的描述、表达、组织等问题 3.6.5 MPEG-7标准:即多媒体内容描述接口,其主要提供图像信息检索解决方案,将对现有内容识别专用解决方案的有限的能力进行扩展,特别是包含更多的数据类型。
MPEG-7的组成:MPEG-7的系统、描述定义语言、音频、视频、属性、参考软件、一致性。 3.6.6 MPEG-21标准:其目的是希望定义一个包含各种多媒体的框架,从而使各种多媒体有机结合,提供安全统一、跨平台、用于信息制作、发布、处理等功能的框架平台。
MPEG-21的实质:就是关键技术的集成,通过集成环境对全球数字多媒体资源进行透明和管理。
3.7 H.26X标准
3.7.1 H.261标准:CCITT的第一个国际视频压缩标准,主要满足电视电话电视会议。 3.7.2 H.263标准:其目的在于在现有的电话网上传输活动图像。其基于块的预测标差分编码系统。
H.263标准的两种编码模式:1.帧内编码,仅包含帧本身的信息,从而每帧可以编码;2.帧间编码,只对帧间预测误差进行编码,从而极大消除时间冗余。
H.263标准的可协商选择编码:1.无范围的运动矢量,、基于语法的算术编码方法、高级预测和PB帧。
H.263+中新增项:1.图像种类,有分级图像、增强的PB帧、用户定义的图像格式。2.编码模式,有先进的帧内码AIC、块效应消除滤波器DF、片结构SS、参考帧选择RPS、参考帧重采样RPR。 3.7.3 H.2标准:其主要目标和特点在于,提高压缩编码效率、增强网络适应能力。
H.2标准关键技术:
1.分层设计VCL:分为视频编码层负责高效视频内容表示;网络提取层NAL:负责以网络所要求的恰当的方式对数据进行打包传送。
2.高精度、多模式运动估计:H.2支持1/4、1/8像素精度的运动矢量。 3.4*4块的整数变换:对残差采用基于块的变换编码,但变换时整数操作不是实数运算。
4.统一的VLC:H.2中熵编码分两种,一种是对所有的待编码符号采用统一VLC(UVLC),一种是采用内容自适应的二进制算术编码CABAC
5.帧内预测:不是在时间上,而是在空间域上进行的预测编码算法,可以消除相邻块之间的空间冗余,取得更有效的压缩。
6.面向IP和无线环境:
第4章 音频信号和声卡
4.1 音频编码基础
声音,根据其内容可以分为波形声波、语音和音乐。 波形声音,是数字化了的声音,包含所有的声音形式。 音频信号,是指经过计算机处理过的离散化了的省略信号。 4.1.1 声音信号的特点:
1.声波是一种连续的波,连续性表现在,一是时间上的连续,二是幅度上的连续。声波具有普通波的特性,反射、折射、衍射。
2.声音的分类,按不同声音特性可分为不规则声音和规则声音。 前者不包含任何信息的噪音,后者常分为语音、音乐、和音效。
语音:是指具有语言内涵和人类约定俗成的特殊媒体。 音乐:是规范的、符号化的声音。 音效:是指人类熟悉的其他声音。 3.声音的三要素,音调、音强、音色。 4.1.2 音频信号处理的方法
声音是连续模拟的信号,计算机要对声音时间轴和幅度两个方面进行离散化。
采样:是指计算机对声音在时间轴上的离散化处理。 量化:是指计算机对声音在幅度上的离散化处理。
4.1.3 音频文件的存储格式
目前流行的种类:主要在计算机上的WAV格式,主要在UNIX工作站上的AU格式,主要在苹果机和SGI工作站上的AIFF和SND格式,和目前PC机上流行的mr和mp3格式。
WAV文件格式:称为波形文件格式。波形文件格式,支持存储各种采样频率和采样精度的声音数据支持声音数据压缩。
RIFF文件格式:一种为交换多媒体资源而开发的资源交换文件格式,前面两个字段表示文件类型,其中最主要的两个块是,文件结构块(包含波形重要参数)和声音数据块(包含实际波形数据)。
WAV外的常见音频格式:
1.MP3,文件即采用MP3文件格式压缩的文件。
2.AVI,一种符合RIFF文件规范的数以音频和视频文件格式。
2.RM,由RealNetworks开发主要用于低速广域网上实时传输活动视频影像。
4.1.4 声音质量的度量
1.可以用声音信号的带宽来衡量,一次为DAT > CD > FM > AM > 数字电话。
2.另外两种基本方法:一是客观质量,主要使用信噪比来度量,建立在度量均方差基础上,特点是计算简单,但不能完全反映人对语言质量的感觉;二是主观质量,常用的方法有平均意见得分MOS法,其5个等级有若干参与测试者平分得出。
3.数字语音通信语音质量分4类,广播质量、网络质量、通信质量、合成质量。 4.2 音频信号压缩技术
数字化的音频信号必须经过编码处理,以适应存储和传输的要求,并且在音频信号再生时得到做好的音质的声音。
一般压缩技术分为,有损压缩和无损压缩,而按照压缩方案不同,又可分为时间域压缩、变换压缩、子带压缩以及多技术混合压缩。 4.2.1 脉冲编码调制
脉冲编码调制,是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最广泛的编码系统,但一时数据量最大的编码系统。
声音数字化的两个步骤:一是采样,每隔一段时间间隔读一次声音的幅度;二是量化,把采样得到的声音信号幅度转化成数字值,可分为均匀量化和非均匀量化。 4.2.2 增量调制DM
增量调制DM是一种预测编码技术,是PCM编码的变形,PCM具有对任意变形进行编码的能力。DM对实际的采样信号与预测的采样信号之差的极性极性编码,将极性变成\"0\"和\"1\"这两种可能。
增量调制孙然简单单有两个缺点:一是会出现斜率过载,二是会产生粒状噪声。 4.2.3 自适应脉冲编码调制APCM
其是一种根据输入信号幅度的均方根值的变化来改变量化的一种编码技术。 改变量化阶大小的方法:一是前向自适应,二是后向自适应。 4.2.4 差分脉冲编码调制DPCM
是利用样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术。其思想是根据过去的样本去估算下一个样本信号的幅度大小,这个值称为预测值,然后对实际信号值与与预测值之差进行量化编码从而减少了表示每个样本信号的位数。 4.2.5 自适应差分脉冲编码调制ADPCM
其综合APCM的自适应和DPCM的差分特性,是一种比较好的波形编码。
ADPCM的思想是:1.利用自适应的思想改变量化的大小,即使用小的量化增量去编码小的差值,使用大的量化增量去编码打的差值;2.使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。 4.2.6 子带编码SBC
其思想是使用一组带通滤波器把输入音频信号的频带分成若干个连续的频段,每个频段称为子带。
采用对子带分别编码的好处:一是对每个子带信号分别进行自适应控制,量化阶的大小可以按照每个子带的能量电平进行调节;二是可以根据每个子带信号在感觉上的重要性,对每个子带分配不同的位数,用来表示每个样本值。 4.3 音频编码标准 4.3.1 CCITT G系列声音压缩标准
1.G711:为电话质量和语音压缩用于电话,使用μ律或A律的非线性量化技术。 2.G.722:为调幅广播质量的音频信号压缩制定,用于视听多媒体和会议电视。 3.G.723.1:采用多脉冲激励最大似然量化算法,用于可视电话及IP电话系统。 4.G.728:使用基于低时延码本激励线性预测编码,用于公共电话网。
5.G.729:使用8kbps的共轭结构代数码激励线性预测算法,多用于无线移动网、数字多路复用系统和计算机通信系统中。 CCITT G系列声音压缩标准比较
标准 比特率 编码技术 应用 制定日 G711 kbps PCM 公共电话网 1972 G.722 kbps SBC+ADPCM视听多媒体和会议电话 1988.11 G.723.1 5.3/6.3kbps MP-MLQ 视频电话及IP电话 1996.3 G.728 16kbps LD-CELP 公共电话网 1992.9
G.729 8kbps CS-ACELP 无线移动网、计算机通信系统 1996.3 4.3.2 MP3压缩技术
MP3是MPEG audio layer3的缩写,是一种超级声音文件的压缩方法,具有文件小、音质佳的特点。MPEG分视频和音频压缩,音频上分MPEG layer1、MPEG layer2、MPEG layer3三种,压缩比一次升高。MPEG 音频编码模式中,MP3功能强大,同样条件下,MP3需要的数据量小且音质要好。
MP3采用有损压缩,为降低失真度,其采用“感官编码技术”,即编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪声电平,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的MP3文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然有损压缩,但以极小的声音损失换来较高的压缩比。 4.3.3 MP3产品: 4.3.4 MP4简介
MP4最初是音频格式,采用先进的音频压缩技术ACC,并且实现了版权保护。 4.3.5 乐器数字接口MIDI
MIDI是数字音乐电子合成音乐的统一国际标准,其目的是解决各种电子乐器间存在的兼容性问题。
MIDI定义的内容:定义了计算机音乐程序、音乐合成器及其他电子音乐设备交换音乐信号的方式,而其还规定了不同厂家的电子乐器与计算机连接的电缆和硬件及设备间的数据传输协议,可用于为不同乐器创建数字声音,能很容易的模拟钢琴、小提琴等传统乐器的声音。
计算机播放MIDI的两种合成声音:FM合成和波表合成。FM合成石通过多个频率的声音混合来模拟乐器的声音;波表面合成是将乐器的声音样本存储在声卡波形表中播放时从波形表中取出声音,所以更为逼真。
MIDI文件格式:CMF随声卡一起的音乐文件,与MIDI文件仅头文件不同;MIDI是windows使用的RIFF文件格式,称为RMID扩展名为.rmi 4.4 音频编码标准
4.4.1 声卡的发展历史
1.PC喇叭到ADLIB音乐声卡;2.Sound Blaster声卡;3.PCI声卡;4.USB声卡。
4.4.2 声卡的声道
1.单声道:比较原始的声音复制形式;
2.立体声:声音在录制时被分配到两个的声道;
3.四声道环绕声:其四个发音点位前左前、右后、左后、右及附加低音单元。 4.5.1声道:广泛用于传统电影院和数家庭影院。
4.4.3 声卡的功能:
1.录制、编辑和回放数字声音文件;
2.控制各声源的音量,并混合在一起,一遍数字化;
3.在记录和回放数字文件时进行压缩和解压缩,以节省存储空间; 4.采用语音合成技术,能够让计算机朗读文件; 5.MIDI接口
4.4.4 声卡的工作原理
主机通过总线将数字化声音信号以PCM的方式送到数模转换器(D/A),将数字信号变成模拟信号;同时又可以通过模数转换器(A/D)将麦克风或CD的输入信号转换成数字信号。
声音处理芯片,是核心芯片,是一个完整的音频子系统电缆,通过对音频信号的转换控制加工处理,在计算机上实现较理想的音响效果。其含有A/D、D/A转换器以及可重构数字
滤波器、设置增益值和衰减值的模拟混合器和数字混合器、并行总线接口,实现音频数据获取和播放的全双通道。
合成器芯片,其由总线接口、发声电源、定时控制三部分组成。 4.5 语音合成技术及应用
语音识别和语音合成技术时实现人和计算机进行语音通信所必须的关键技术。
语音合成:包含两个可能性:一是机器能再生一个预先存入的语音信号,就像录音机只是采用数字技术;一种是采用数字信号处理方法。 4.5.1 共振峰合成
基于共振峰理论的三种实用模型:1.级联型共振峰模型;2.并联型共振峰模型;3.混合型共振峰模型。 4.5.2 LPC参数合成
LPC参数合成其本质是一种实践波形的部门技术,目的是为了降低时间域信号的传输速率。需要与其他技术结合才能明显改善LPC合成质量。 4.5.3 语音合成的三个层次
按人类语言功能的不同层次可分三个层次:1.从文字到语音的合成;2.从概念到语音的合成;3.从意向到语音的合成。 4.5.4 语音合成技术的应用:1.人机对话;2.电话咨询;3.自动播音;4.助讲助读;5.语音教学;6.电话翻印。
4.6 语音识别技术的应用
语音识别技术的最终目标是人与计算机自由的交谈,及其能听懂人话。 4.6.1 语音识别技术的发展历史
其研究始于20世纪59年代,由AT&A Ball实验室实现Audry 10词识别语音系统,60年代提出动态规划和线性预测分析技术,后者解决了语言信号产生模型的问题,70年代动态规划技术得到进一步发展,动态实践规正技术成熟,提出了矢量量化和隐马尔可夫模型理论在实践上实现了基于线性预测倒谱和动态实践规正技术的特定人孤立语音识别系统,80年代HMM模型和ANN人工神经元网络在语音识别中的成功应用,90年代语音识别由实验室走向大众。 4.6.2 语音识别技术
其所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等。
语音识别技术主要包括:特征提取技术、模式匹配准则、模型训练技术三个,另外还涉及到语音识别单元的选取。
1.语音识别单元的选取:选择识别单元式语音识别研究的第一步,其有单词(句)、音节和音素三种。单词单元主要用于中小词汇识别系统,不适合大词汇系统;音节多见于汉语语音识别,因为汉语为单音节语言;音素中英语音识别都用。
2.特征参数提取技术:常用的声学特征有线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC和感知线性预测PLP
3.模式匹配和模式训练技术:模式匹配时根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。模型训练是指按照一定的准则,从大量已知模式中获取该模式本质特征的模型参数。 4.6.3 语音识别系统的类型
语音识别系统的几种分类方式:按对说话人的依赖程度可以分特定人非特定人语音识别系统;按对话人说话方式可以分孤立字词语、连接词、连续语音识别系统。按词汇量大小可分小词汇量、中等词汇量、大词汇量和无限词汇量语音识别系统。
1.特定语音识别系统:可以训练特定人的系统来识别更大的词汇表,但也存在:需要彻底的训练,因为要把单词输入系统重复很多次;为识别大词汇表中的单吃需要大量的存储;为识别单词进行的搜索时间更长。
2.非特定人语音识别系统:可以识别任何用户的语音。 3.孤立词语语音识别系统:一次只提供一个单词的识别。 4.链接词语音识别系统:识别句子。
5.连续语音识别技术:主要的两个问题:一是分割和标志过程,把语音段标记成代表音素、半音节、音节和单词更小的单元,二是为跟上输入语音并实时地识别词序列所需的计算能力。
连续语音识别技术的三个组成部分:一是数字化、幅度归一化、时间归一化和参数归一化:二是分割并把语音段标记成在基于知识或基于规则系统上的符号串:三是设计用于识别词序序列而进行语音段匹配。
4.6.4 语音识别的应用:1.语音邮件的集成;2.数据库的输入和询问应用;3.语音命令和控制应用。
第5章 光盘存储
5.1 光盘的发展历史
CD-DA过度到CD-ROM两个重要问题:一个是计算机如何寻找光盘上面的数据,二是CD作为计算机的存储器时要求错误率远小于声音数据的错误率。
光盘存储的主要历史事件:
1.1980,PHILIPS、SONY 制定CD-DA标准;
2.1982,SONY 第一台CD播放机 CDP-101,第一张 CD; 3.1984,SONY 第一台汽车CD播放机和便携式CD播放机; 4.1985,PHILIPS、SONY定义了 CD-ROM标准; 5.19PHILIPS、SONY定义了交互式CD-I标准;
6.1990,PHILIPS、SONY将 CD-ROM 标准扩展为CD-ROM XA 和CD-R标准; 7.1994,CD-ROM成为家用计算机标配; 8.1995,可擦写CD和 CD+标准;
9.1995.9,SNOY 和其他8家公建立了DVD格式统一标准。
不同格式光盘之间的主要差别:
1.CD-DA盘存放数字化的音乐节目,可以播放74分钟; 2.CD-G存放静止图像和音乐节目;
3.CD-V存放模拟的电视图像和数字化声音;
4.CD-ROM盘存放数字化文、图、声、像等,650MB,动画、动静态图像; 5.CD-I存放数字化的文、图、声、静止像、动画等; 6.CD-I FMV存放数值化的电影、电视节目等; 7.卡拉OK CD 存放数字化的卡拉OK节目;
8.Video CD存放数字化的电影、电视节目,70分MPEG-1数字影视节目; 9.DVD存放高清晰数字化的电影节目等。
技术皮书说明 标准 盘名 应用目的 播放时间 显示图像 红皮书 CD-DA 存储音乐节目 74分钟 动画动静态图像
黄皮书 CD-ROM 存储文、图、声、像 650MB 动画静态图像 绿皮书 CD-I 存储文、图、声、像 760MB 橙皮书 CD-R 读写文、图、声、像 Video CD 存储影视节目 70分钟MPEG-1 MPEG-1质量 红皮书+ Video-CD 存模拟电视数字声音 5~6分钟电视20分钟声音 CD-Bridge Photo CD 存储照片 静态图像 蓝皮书 LD 存储影视节目 200分钟 模拟电视图像 5.2 CD盘的结构
CD盘主要由保护层、反射激光的铝制反射层、刻槽和聚碳酸酯衬垫组成。
CD盘的光道与软磁盘磁道的不同:磁盘存放数据的磁道是同心环,磁盘片转动角速率是恒定的,用CAV表示,所以不同磁道的线速度是不同的,同心圆结构虽然简单,但外磁道存储密度低利用率不高。CD盘采用螺旋型光道,长约5km,其转动线速度恒定,盘片可充分利用,但随机存储特性变差。 5.3 CD-ROM盘制作过程
在制作原版盘时,是用编码后的二进制数据去调制聚焦激光束,如果写入数据为0就不让激光通过,为1就使其通过。原版盘的玻璃盘上面涂有感光胶,曝光的地方经过化学处理后就形成凹坑,没有曝光的地方保持原样,再经过化学处理后的玻璃盘表面上镀层金属,制作成母盘,然后用母盘压制DVD光盘。 5.4 CD-ROM光盘与驱动器
5.4.1 CD-ROM标准 CD-ROM标准即黄皮书。红皮书与黄皮书相比红皮书对2352字节的用户数据进行了重新定义,解决了CD-ROM作为计算机存储器的两个问题,一是计算机的寻址问题,二是误码率的问题。
5.4.2 CD-ROM驱动器
1.基本知识:CD-ROM驱动器即光驱,是一种读取光盘盘片数据的一种设备。
2.工作原理:光驱常见部件有光盘托盘、托盘开关、耳机孔、和音量控制按钮。其背面有四孔电源线,一条数据传输线和一条链接到声卡的线。
光驱三种数据接口:一是早期的AT bus接口,二是主流的IDE接口,三是SCSI接口。 激光头主要组成:激光发生器、半反射棱镜、物镜、透镜和光电二极管。 5.5 DVD驱动器
5.5.1 DVD的物理特性
DVD提高容量的两种方法:一种是减少光道距离和凹坑尺寸;一种是增加数据记录层的层数。
DVD与CD的主要区别:但DVD光道之间的距离由原来的1.6微米缩小至0.74微米,记录信息的凹凸坑长度由0.83微米缩小至0.4微米,且可以制作到双面双层。
DVD与CD的物理特性区别 CD :直径120mm,厚度1.2mm,轨道间距1.6微米,最小坑长0.834微米,波长780nm目标镜头的NA*0.45,容量0.65GB
DVD:直径120mm,厚度0.6mm,轨道间距0.74微米,最小坑长0.4微米,波长650nm目标镜头的NA*0.6,容量4.7GB
DVD的不同参数:
DVD-5,单面单层4.7GB DVD-10双面单层9.4GB
DVD-9单面双层9.4GB DVD-18双面双层17GB 5.5.2 DVD视频编码技术:采用MPEG-2压缩技术。 5.5.3 DVD音频格式及编码技术:音频采用杜比AC-3技术,包括立体声和5.1环绕立体声声道。
5.5.4 DVD盘片的生产过程:1.数据处理;2.母盘刻录和压模制备;3.复制;4.黏合,分热黏合和紫外线黏合。
5.5.5 DVD播放机:其内部有5部分,托盘、电源电路板、影音解码器(MPEG-2解码器)、功能控制电路板、影像音频转换输出板。
DVD/CD信号拾取系统主要的4种方案:1.单激光头双聚焦镜方案;2.单激光头单聚焦镜双聚焦点方案;3.双激光头双聚焦镜方案;4.单激光头双波长激光方案。
DVD的伺服控制电路包括光学和机械等元件,分为:1.聚焦伺服;2.循轨伺服;3.主轴电机伺服;4.信号处理系统。
5.5.6 DVD区码:六个区,两种区码控制系统,一是RPC 1类型,二是RPC2 5.6 CD-RM驱动器
5.6.1 CD-R盘分为CD-MO可擦写磁光盘和CD-WO一次写入CD-R盘两种盘 5.6.2 CD-RW是CD-R的补充,具有兼容CD-R刻录和数据存储两大功能。 1.CD-RW结构同CD-ROM基本相同,只是在盘中增加了可改写的染色层。 2.刻录方式和存储格式:主要有整盘刻录、轨道刻录写和多段刻写。
3.速率和质量:速率有刻录速率、写入速率和读取速率3个指标,前两个为其主要指标。 4.接口和规范:接口有IDE、SCSI、并行接口和USB四种。 5.6.3 COMBO驱动器:多功能光盘驱动器。 5.7 下一代光存储技术
5.7.1 蓝光技术: 5.7.2 HD DVD 5.7.3 EVD、FVD和NVD
EVD的主要创新在于:1.音频视频的滤波变换、编码解码优化方法,改善音响画面素质及增加数据压缩比特率;2.承袭自SVCD的“数字视频上动态叠加字幕”方法,可令字幕以256色显示。
EVD技术特点:视频方面,标准清晰度外还有自VCD质量到全高清8种不同视频质量;音频方面,自主产权EAC音频压缩技术;字幕方面,256色可浮动可透明显示。
5.8 光驱应用技术:1.True X技术;2.人工智能纠错技术;3.自动平衡系统;4.双动态抗震悬吊想系统;5.数字伺服系统技术
第六章 多媒体计算机软件
多媒体软件的主要任务:是使用户能够方便、有效地组织和调整多媒体数据,让多媒体硬件去处理相应的媒体数据,实现音频、视频同步,真正实现多媒体的信息表达方式 。 6.1 多媒体软件的分类
多媒体软件分为5类:驱动程序、支持多媒体的操作系统或环境、多媒体数据库准备软件、多媒体编辑创作软件和多媒体应用软件。 6.2 多媒体驱动程序
驱动程序及其作用: 多媒体系统中直接和硬件打交道的软件称为设备驱动程序,它完成设备的初始化、设备各种操作以及基于硬件的压缩和解压缩、图像快速变换等基本硬件功能调用。
设备驱动程序课分为两类:应用程序装载的可装载驱动程序和可自动运行与装卸的驻留驱动程序。
在Windows环境下,驱动程序的装载时通过Windows的初始化配置文件来完成的。 VMMA是Windows运行环境的核心,它提供创建管理虚拟机的各种服务。 虚拟设备驱动程序用于VMM的设备性,它管理计算机的硬件设备和驱动程序,确保应用程序之间不会相互干扰。Windows的动态链接库则为所有的Windows应用程序提供系统调用服务和系统图形资源。 6.3 多媒体操作系统
多媒体操作系统在驱动软件之上,是多媒体软件的核心,其主要任务和特征如下:
负责多媒体环境下多任务的调度;保证音频、视频同步控制以及信息处理的实时性;提供多媒体信息的各种基本操作管理;具有对设备的相对性与可扩展性。
目前的操作系统在支持连续媒体应用中还面临着许多的问题来自两方面:1.操作系统缺乏实时性支持,只能提供更好的计算能力;2.缺乏基于服务质量的管理,以及系统能够保证现有应用的服务质量。
6.3.1 Windows 9x/ME对多媒体的支持 Windows 95具有的多媒体功能包括:
对音频、视频和图像的压缩服务,对软件开发的开发接口
Video for Wondows Runtime 使得在Windows 95机器上运行数字视频成为可能 增强的MIDI提供多达16个通道和多种设备的支持
Sound Recorder让用户通过麦克风、MIDI接口甚至CD记录自己的声音 CD Player 允许播放CD音乐
多任务可细分为进程与线程的交互作用和两种任务模型:协作的和抢先的。 Windows 98比 Windows 95的优点体现在以下几个方面:
1.真正的Web集成----活动桌面、频道栏、新闻组、联机会议和个人Web服务器使得网络应用更加出色。
2.娱乐丰富多彩
3.新硬件的支持------增强三维图形及视频回访处理
4.联机广播查看------可从Web 或Intranet接收网络流式多媒体内容,可同步处理视频、音频和图形数据,还可收听收音机或将电视新闻频道直接引入
5.桌面主题-----不同的桌面主题对应着从视图到声音多方面不同的系统使用风格,不但有趣,还能体现用户个性 Windows Me 中的新功能
1.My Pictures 文件夹:类似我的文档文件夹,方便打开和管理图片文件。 2.图片的浏览和处理:集成了简单快速的图片浏览器。 3.影音欣赏的中心——媒体播放器:WMP7.0播放器。 4.家庭影院——DVD播放器:自带的DVD播放器。
5.影像制作——WMM:windows movie maker缩写,入门视频制作工具。 6.3.2 Windows NT多多媒体的支持
Windows NT 支持多种多媒体设备,包括:1.采样和重够模拟语音信号的波形音频硬件;2.链接到外部音乐设备的MIDI接口;3.计算机自身板上MIDI合成器;4.数字化单帧和连接视频信号的视频捕获设备;5.CD播放器、视盘播放器和游戏棒等相关设备。
WINMM是个用户模式动态链接库,作为应用程序和实际体硬件的厂商提供的驱动程序之间的转换层。WINMM为了完成它的工作,依赖于以下3种驱动程序:1.MCI驱动程序;2.低级音频驱动程序 ;3.内核模式设备驱动程序
6.3.3 WindowsXP 对多媒体的支持 Windows XP的数字媒体处理功能是通过媒体播放器、个人屏保和快速图片浏览等应用程序来实现的。
Windows XP提供了WIA系统,让用户可以方便地在任何图像处理软件中直接获取数码相机或扫描仪中的图片资源。
WindowsXP 还提供了快速图片浏览功能,可以快速浏览绝大部分的图片格式。 6.3.4 Windows 2003对多媒体的支持
Windows2003服务器提供功能强大的企业流式数字媒体服务----Windows多媒体服务。 Windows 多媒体服务提供了自动编程的能力。 6.3.5 Windows Viste 对多媒体的支持
Windows Viste主要了以下功能:1.整合了Windows多媒体中心平台;2.在音频方面,音频驱动工作在用户模式,提高了稳定性,同时速度和音频保真度也提高了不少,内置了语音识别模式,带有针对每个应用程序的音量调节;3.内置了Windows Medio Player 11;4.在系统任务栏里的缩略图播放视频 6.3.5 Linux对多媒体的支持:
1.XMMS-----Linux下的MP3player.;2.GNONM CD player-----一款基X-Windows的CD播放软件;3.Realplayer for Liunx------RM格式的影音文件是网上广为流传的电影格式。 6.4 多媒体数据准备软件:是指用于采集多种多媒体数据的软件,如声音录制、编辑软件等 6.4.1 环境下声音数据的采集
Windows 环境中可以通过它提供的MCI命令来控制声卡。
要想用波形音频函数来控制声卡,必须要经过以下步骤:1.打开波形输入设备;2.为采样数据分配缓冲空间;3.启动波形输入设备;4.关闭语音输入设备。 6.4.2 Windows环境下视频数据的采集
数字视频数据时通过对模拟视频信号的音频、视频信号同步捕获并数字化而得到的。 视频图像输入的两种方式:一是捕获卡加模拟摄像头,二是基于USB接口数字摄像头。 1)VFW简介:
VFW是Microsoft公司1992年推出的关于数字视频的一个软件包,它能使应用程序从传统模拟视频源得到视频剪辑,采用ACI标准。
VFW主要有以下6个模块组成:
1.AVICAP.DLL----包含了执行视频捕获的函数,给AVI文件I/O和视频、音频设备驱动程序提供一个高级接口
2.MSVIDEO.DLL-----用一套特殊的DrawDib函数来处理屏幕上的视频操作 3.MCIAVI.DRV-------包含对VFW的MCI命令的解释器
4.AVIFILE.DLL-------支持由标准多媒体I/O函数提供的更高的命令来访问AVI文件 5.压缩管理器(ICM)-----管理用于视频压缩--解压缩的编解码器
6.音频压缩管理器(ACM)-----提供与ICM相似的服务。它适用于波形音频 2)AVICap编程简介 AVICap支持实时的视频流捕获和单帧捕获并提供对视频源的控制。
用AVICap窗口类创建的窗口被称为“捕获窗”。捕获窗具有以下功能:
1..将一视频流和音频流捕获到一个AVI文件中 2.动态地同视频和音频输入器件连接或断开
3.以Overlay或Preview模式对输入的视频流进行实时显示
4.在不回时可指定所用的文件名并能将捕获文件的内容复制到另一个文件 5.设置捕获速率
6.显示控制视频源、视频格式、视频压缩的对话框 7.创建、保存或载入调色板
8.将图像和相关的调色板复制到剪切板
9.将捕获的一个单帧图像保存为DIB格式的文件
AVICap在显示视频是提供的两种模式:
1.预览模式-----该模式使用CPU资源,视频帧先从捕获硬件传到系统内存,接着采用GDI函数在捕获窗中显示
2.叠加模式------改模式使用硬件叠加进行视频显示,叠加视频的显示不经过VGA卡,叠加视频的硬件将VGA的输出信号与其自身的输出信号合并,形成组合信号显示在计算机的监视器上 3)视频数据采集过程:
(1)创建视捕获窗口,调用函数capCreatCaptureWindows(); (2) 设置视频捕获的相关回调函数:
capSetCallbackOnError()---设置错误回调函数 capSetCallbackOnStatus()---设置状态回调函数 capSetCallbackOnFrame()----设置帧预览回调函数
capSetCallbackOnVideoStream()----设置返回视频帧相关信息的回调函数 (3)搜寻视频设备并连接相关设备
capGetDriverDescription()----获取设备版本信息 capDriverConnect()-----连接设备驱动程序
(4)获取连接设备当前的参数设置并根据需要进行修改 capCaptureGetSetup()----获取当前设置 capCaptureSetSetup()-----修改当前设置
capDlgVideoForeat()----弹出Video Format对话框 capDlgVideoSource()----弹出VideoSource对话框 (5)设置预览帧率
capPreviewRate()------设置Preview模式的显示速度 capPreview()----启动Preview模式 (6)开始捕获数据
capCaptureSequenceNoFlie()-----开始捕获视频序列到另一缓存中,回调函数capSetCallback-OnVideoStream()负责处理缓存中的视频数据 capCaptureSequence()----开始捕获视频序列到指定文件中 6.5多媒体创制工具:多媒体数据库和创作工具为多媒体应用提供资源和信息加工,如声音录制、编辑、视频采集、剪接、动画生成和网页制作等。 6.5.1 多媒体创制工具的评测标准
评测一个多媒体创制工具的标准有如下:
1.编程环境;2.各种媒体数据输入能力;3.动画制作与演播;4.应用程序间的动态链接;5.制作片段的模块和面向对象化;6.易学习、已使用;7.多媒体创作工具应设计成操作简便、编辑时易于修改,所见即所得,菜单和工具布局合理,使用户掌握了基本的操作技能后,能尽快地进行工作;8.良好的扩充性。 6.5.2 多媒体创作工具的分类
从系统工具的功能角度划分,多媒体创作工具大致可以分为4类:媒体创作软件工具、多媒体节目写作工具、媒体播放工具以及其他各类媒体处理工具。
1.媒体创作软件工具:用于建立媒体模型产生媒体数据
2.多媒体节目写作工具:提供不同的编辑、写作方式
3.媒体播放工具:可以在计算机上播出,有的甚至能在消费类电子产品中播出 4.其他各类媒体处理工具 6.5.3 音频处理软件
音频数据处理软件是为多媒体计算机应用录制、编辑、修改数字化声音的工具软件。通常以“wav”为扩展名,称为WAV格式文件。 一个完整的数字化声音处理软件应包括如下功能:
1.音频数据的录制,应能选择不同的录音参数,包括多种采样频率、多种采样大小、录音声道数,以及他们的不同组合;
2.音频数据的编辑和回访,对录制或通过打开声音文件得到的数字化声音数据进行播放选快、复制、删除、粘贴、声音混合等多种编辑;
3.音频数据的参数修改,包括采样频率的修改和格式转换;
4.效果处理,包括逆向播放、增减回声、增减音量、增减速度、声音的淡入淡出、交换左右声道等;
5.图形化的工作界面,应能按比例吧实际的声音播形显示成图形,做了修改后,应能实时显示其变化;
6.非破坏式修改,在内存中修改,不修改原文件 7.能以WAV格式文件存储数字化声音数据 6.5.4 图形、图像及动画制作与编辑软件
1. 动画创作于编辑软件的功能要求
动画师多媒体计算机技术处理的重要媒体。与传统的计算机动画不同,多媒体计算机动画不仅要求有图形的动态变化,而且要求至少有与动作相一致的声音,为增强表现效果,常常还需要有相关的背景音乐。
计算机动画创作于编辑软件的基本功能要求包括:1.造型,即构造目标物体的骨架;2.材料库;3.动态编辑;4.动态生成;5.声音同步。
2.多媒体编辑软件的分类
按其编辑成的应用软件的运行方式来分,可以分成:
1.运行时需要整个软件来解释程序的解释型对媒体编辑软件;
2.线运行一定的编译,运行时只需一个解释程序来解释的半编译型多媒体编辑软件; 3.可把程序完全变成可执行程序的编译型多媒体软件。 按其应用领域及价格来分,可以分成:
1.应用于影视创作等专业领域的高档多媒体编辑软件 2.应用于教育、娱乐的产品创作中的中档多媒体编辑软件 3.用于普通商业介绍、剪报创作的低档多媒体编辑软件 按其编辑媒体的手法来分,则可分成:
1.利用描述各种媒体的特性、体的播放和运动方式的描述语言来实现程序流程的基于描述的多媒体编辑软件
2.按时间顺序来表达整个多媒体事件中各种媒体出现的顺序及其播放的基于时间轴的多媒体编辑软件
3.运用人类整理资料卡的方法 4.书结构的多媒体编辑软件 5.流程图结构的多媒体编辑软件 5.5.5 网上音频、视频文件制作:
流式技术:是指将音频文件和视频文件变换为若干个数据小包,在网上像流水一样传送。
6.6 多媒体应用软件
常见的应用软件有以下几种:1.各种信息管理软件;2.办公自动化系统;3.各种文字处理软件;4.各种辅助设计软件以及辅助教学软件;5.各种软件包。
多媒体应用软件的开发:是指多媒体软件开发人员在多媒体核心软件的基础上,借助多媒体软件开发工具编制多媒体应用软件的过程。
多媒体计算机软件工程师就成为整个工作的主导者,他们的主要任务是用多媒体工具软件按照剧情构思编制程序和组织多媒体数据,以形成完整的多媒体应用程序。
多媒体计算机软件开发者在编制程序时应注意:首先要考虑程序运行的操作系统环境, 然后程序设计者还得确定用于编程的工具。
根据应用程序的特点和编程个人的风格,可以选择程序设计语言、多媒体编辑软件或多媒体数据库系统作为基本的编程工具。
在Windows环境下Microsoft 公司的Visual Studio.NET是对媒体软件开发人员优选的程序设计语言。 6.7 多媒体播放器
多媒体播放器是指那些能够回放不同编码格式音视频文件的软件。这类软件一般分为两类:一类是运行在个人计算机上并用来播放本地存储的音视频文件的播放器,另一类就是播放基于Web的音视频流的播放器。 6.8 Microsoft DirectX
DirectX 是由Microsoft公司开发的用途广泛的API,由C++编程语言实现,遵循COM.。 DirectX是一组低级“应用程序编程接口(API)”,可以为Windows程序提供高性能的硬件加速多媒体支持,增强计算机的多媒体功能。
DirectX使程序能够轻松确定计算机的硬件性能,然后设置与之匹配的程序参数。 6.8.1不同版本DirectX的特性
DirectX 10的主要优势是更好、更合理地利用GPU资源从而降低对CPU的依赖, 主要从以下三方面来解决:提高绘图效率、提高GPU利用率、指令优化。 6.8.2 Microsoft DirectSound简介
Microsoft DirectSound是DirectX API的音频组件之一,它为程序和音频适配器的混音、声音加速和声音捕获功能之间提供链接。
1..DirectSound的主要优点:1.即时查询硬件特性的能力,并根据当前计算机硬件配置来决定最好的解决问题的方法;2.通过属性集,可以使用那些尚未由DirectSound直接支持的硬件新特性;3.音频流的低延迟时间混音,保证了程序的快速响应;4.实现3D音效;5.音频捕获支持。
2..DirectSound的体系结构:DirectSound的音效 回放部分建立在IDirectSound和IDirectSoundBuffer COM接口之上,后者用于控制音频缓冲区。
3.DirectSound中的音频数据格式:在DirectSound和DirectSoundCapture中均要用到频率恒定的波形音频数据。
4.音频回放:DirectSound中的音频缓冲区对象代表了一个含有音频数据的缓冲区。 5.音频捕获:DirectSoundCapture对象用来查询捕捉。
6.硬件抽象及模拟:DirectSound通过音频设备驱动提供硬件抽象出HAL,其功能有:获得和释放音频硬件的控制权、描述音频硬件的能力:当音频硬件可用时完成指定操作;当音频硬件不可用时,向操作申请者返回错误。
7.系统集成
6.8.3 Microsoft DirectShow简介
Microsoft DirectShow为多媒体流的捕获与回放提供了强有力的支持。
参与数据处理的各个功能模块叫做过滤器(Filter):Filter大致分为三类:Source Filter(源过滤器)、Transform Filter(转换过滤器)和Reading Filter(表现过滤器)。 6.8.4 DirectShow应用程序的开发:
1.COM Library的调用;2.Filter Graph管理器接口;3.创建Filter Graph Manager接口;4.创建Filter Graph;5.使用DirectShow的事件响应机制。 6.8.5 DirectShow应用示例
要利用Media Detector和Sample Grabber Filter实时在线获取视图像帧,主要包括以下4个步骤:1.创建媒体监视器;2.设置回调方法;3.编写回调函数;4.运行过滤器图播放视频流。
第7章 多媒体文档的组织与设计
7.1 超文本和超媒体
7.1.1 超文本与多媒体概述
超媒体系统:基于超文本信息管理技术的系统称为超文本系统。其是作为一种复杂的信息管理系统而出现的。其准许人们从各种媒体创建、互联和共享信息。
超文本系统:是由结点和链组成的,其提供非线性信息的访问方式,是一种新的访问信息手段的数据库系统。
超文本:有信息结点和表示信息结点相关性的链构成一个具有一定逻辑结构和语义的网络,结点为多媒体数据。其目的是提供一个复杂的、具有丰富链接和交叉引用的信息系统。
超媒体:包含多媒体的超文本称为超媒体。其目的是为了生产巨大、复杂、丰富链接和交叉引用的信息体。
7.1.2 超文本系统的基本特点:
超文本系统:基于超文本信息管理技术的系统。其基本特征有以下几个方面:
1.图形用户接口。在浏览器和图表的帮助下,用户可以通过点击链接并阅读结点的内容来获取大量的信息。
2.向用户给出一个网络结构动态总貌图,使用户在每一时刻都可以得到当前结点的邻接环境。
3.在超文本系统中一般使用双向链接,这种链接应支持跨越各种网络。 4.包含管理结点和链信息的引擎。用户可以根据自己的需要动态的改变网络周边各的结点和链,以便方便快速的浏览。
超文本系统的组成:由结点和链组成。结点通过链来连接。
结点的类型有:文本结点、图形和图像结点、动画和视频结点、音乐和数字化语音结点、混合媒体结点、动作与操作结点、组织型结点、推理型结点。
链的结构分为:1.链源,是导致结点信息的原因;2.链宿,链的目的所在即结点;3.链的属性,是指链的版权和权限等信息。
链按用于导航和信息检索分的种类:
1.基本链:用来建立结点之间的基本顺序。 2.移动链:可以简单的移动到相关的节点。 3.缩放链:可以扩大当前结点。
4.全景链:返回超文本系统的高层视图,与缩放链相对应。
5.视图链:依赖于用户使用的目的,常常被用来实现可靠性和安全性。 链按超媒体结点和链的组织与推理分的种类
1.索引链:实现结点中点和域之间的链接。 2.Is-a链:用于组织结点。
3.Has-a链:用来描述结点性质。
4.蕴含链:用于在推理中事实的链,通常等价于规则。
5.执行链:触发多媒体系统与高级程序设计接口,而执行一段代码的按钮。 宏结点:通过链连接在一起的结点群。
子网:宏结点作为超文本网络的一部分称为子网。
7.2 超文本的发展历史和典型的超文本系统
7.2.1 超文本的发展历史
现在超文本与传统字典形式的超文本的区别:访问速度快,文献容纳信息量大,以及结点和链可以动态的改变。 7.2.2 典型的超文本系统:Augment/NLS、KMS、Guide(支持替换链、记事链、引用链、查询链)、NoteCards、Hypercard。 7.3 超文本系统的用户接口
解决迷失和认识开销的方法:图像浏览器、Web视图、地图和概貌图、路径和形迹。 7.4 HTML语言的简介
万维网WWW:是一个信息资源网络
万维网使信息资源广泛利用所凭借的三个技术;1.指定网上信息资源地址的统一资源定位器,2.存取资源的协议,3.在资源之间很容易浏览的超文本技术。
HTML及其的作用:HTML实一种组织文档的语言,可以用来编排文档、创建列表、建立连接、插入声音和影视片断等。
7.4.1 HTML发展历史 7.4.2 HTML语言结构
HTML是一种没有格式的文档,也称ASCII文件,可以使用文本编辑器来编辑。一个mtml文档通常由文档头head、文档名title、表格table、段落paragraph和列表list组成。
文档元素:简称文素,是指html文档的组成元素 HTML标签:其由<、标签名、>组成 HTML分成文档头、正文分别用
...和...来标记 7.4.3 HTML标签和属性1.HTML标签:...标签告诉浏览器这中间的文件是用html编写的。 2.文档头标签
:...之间包含的是HTML文档名; 3.文档名称标签超链接分为:文本链接和文档内部之间的链接。
7.4.5 用HTML实现多媒体 7.5 XML简介
7.6 SMIL及其应用示例
7.6.1 SMIL简介 7.6.2 SMIL的基本语法规则 7.6.3 应用设计 7.6.4 应用示例
7.7 设计超文本的工具
7.7.1 javascript 7.7.2 动态网页设计:ASP技术、JSP技术、PHP技术、 7.7.3 Ajax技术:是几个技术的组合,有基于XHTML和CSS标准的表述;使用Document Object Modle 进行动态显示和交互;使用XML HttpRequst与服务器进行异步通信;使用JavaScript绑定一切。
第八章 多媒体数据库概述
8.1 多媒体数据的特点
多媒体数据的特点:1.数据量、2.数据长度、3.数据模型、4.数据定义及操作、5.数据的时间特性和版本概念、6.数据传输。 多媒体数据库应具有以下功能:
1.支持图形、图像、动画、声音、动态视频、文本等多媒体字段类型及用户自定义类型; 2.支持定长数据和非定长数据的集成管理;
3.支持复杂实体的表示和处理,要求有表示和处理实体间复杂关系的能力,有保证实; 4.完整性和一致性的机制;
5.支持同一实体的多种表现形式; 6.既有良好的用户界面;
7.支持多媒体的特殊查询及良好的处理接口; 8.支持分布式环境。 8.2 多媒体数据库的发展
实现多媒体数据库系统的途径可以分3类:扩充关系数据库方法8、面向对象的方法、超文本方法。
多媒体数据库的研究分为两大类型: 1].面向对象数据库的研究
1.研究方法:三种实现面向对象数据库的方法:1.扩充关系数据库模型;2.在面向对象语言中嵌入数据库功能形成面向对象数据库;3.开发全新数据库模型,从底层实现面向对象数据库系统。
2.理论及形式化研究;
3.面向对象数据库的实验系统和商品化系统:因为其本身存在缺乏通用数据模型、理论基础、有好的用户界面和工具环境、有利的查询优化。 2].对关系数据库进行扩充
开发一个通用的多媒体数据库,还应该重点研究一下问题:
1.加强合理语义模型技术,特别是视频和图像的语义模型 2.设计有效的多媒体数据的索引和组织方法 3.建立适合于媒体同步和集成的数据模型 4.加大多媒体查询语言的研究
5.对物理储存管理设计出有效地数据储存模式,以满足多媒体数据实时性的要求 6.分布式多媒体数据库的管理
8.3 多媒体数据库的数据模型 数据模型通常由数据结构、数据操作和完整性约束三部分组成。
对象分为两类:一类是与数据类型、内容、性质有关的对象;另一类是与数据之间关联有关的对象。
数据库主要有两大操作:检索和更新
多媒体数据具有复合性、分散性、时序性的特点
复合性、分散性、时序性的特点对数据模型的要求:
支持丰富的数据类型及相应的处理;说明不完备信息;扩充个别对象的定义到其类型定义之外;编组来自不同数据库的数据并加以一致性处理;描述结构化信息;模拟对象内部的概念与外部表达;支持上下文无关与有关的引用;支持数据共享;支持版本的生成和控制;支持系统预定义操作和用户定义操作;支持对象的同频与集成。
多媒体数据模型可以分为3类:关系数据模型、面向对象数据模型和超文本数据模型 1.关系数据模型的优点:
1.关系模型概念单一,结构简单,实际上就是一张二维表 2.关系模型的集合处理能力强 3.关系吗小的数据性强 4.关系模型有严格的数学基础 5.关系模型有标准的语言
增加对非格式化数据处理的能力技术策略:
1.关系数据库管理系统技术和操作系统中文件系统的功能相结合,实现对非格式化数据的管理;2.将关系元组中格式化数据和非格式化数据装在一起,形成一个完整的元组,存放在数据页面或数据也组中;3.将元组中非格式化数据分成两部分,一部分是非格式化数据本身,一部分是对非格式化数据的引用。
2.面向对象数据模型
1)数据抽象:即类与子类的概念及相关性; 2)封装数据及其操作一体化;
3)继承:及父类属性及其操作可以向子类传递;
4)消息传递:即客观事物之间的相互作用用同一的消息传递的方法描述.
3.超媒体数据模型 8.4 多媒体数据库与查询
8.4.1 查询语言 多媒体的三种查询方法:关键字查询、可视化查询、语义查询 8.4.2 全文检索技术 全文检索包括以下几方面的技术问题:
1.检索的快速响应;2.如何建立索引库;3.如何压缩索引数据;4.提供完整、丰富的检索操作手段;6.超文本处理;7.分布式网络文档的检索处理; 对多媒体对象的检索方法可以分成以下4种:
按标识符检索;按条件语句检索;借助例子的相似性检索;按内容检索.
8.4.3 万维网文档的全文检索技术
分布式、数据量巨大、动态性、复杂的标识符处理。
8.4.4 基于内容的信息检索 内容的检索,有如下特点:
从媒体内容中提取信息线索、近似匹配、大型数据库的快速检索、多种检索手段。 1]. 基于内容的图像检索
图像检索(CBIR)技术特点如下:
1.不是单纯的数据库管理和急死案件视觉问题,她需要处理前所未有的数据,因此在处理速度、准确度、算法的鲁棒性方面都提出更高的要求
2.图像数据的表达本身不是单一的,多种表达方式并存是可能的,表达方法的选择要依赖于特定的用户和特定的应用领域
3在传统的图像数据库中,符号数据可以用基本的数据类型精准地表示,检索匹配是精确的匹配
4.从媒体内容中提取信息线索
5.符号数据库本身就具有语义信息,在符号数据命名的过程中举赋予特定的信息
6.由于内容表达的不精确性,因为检索得到的结果可能包含一些不相关的图像,这种情况对于基于内容的检索式允许的重要的一点就是在检索中不要将相关的图像漏掉 CBIR的检索内容主要包括:颜色、纹理、形状、对象。 CBIR的常见方式如下:
1.选择颜色的比例、层次以及纹理图案的图样进行查询2.用工具生成表示物体和物体间空间关系的符号图像进行查询3.用画图工具生成与希望查找的图像颜色分布相似的图像进行查询4.从当前窗口所陈列的全部图像中选择接近自己意愿的图像进行查询,重复多次,直至找到为止。6.上述方法与字符的关键词结合进行查询 2]. 基于内容的视频检索
视频可用故事单元、场景、镜头、帧等描述。
帧是直接从视频中抽取的每一幅图像,是视频的最小单位。
镜头是视频序列经过时序分割后的结果,是基于内容的视频检索中的最小语义单元
关键帧是为了减少数据量,提高检索效率,从镜头中提取的一帧或多帧图像来表示镜头的特殊的视频帧。
场景是在镜头的基础上,为了抽取高一级的语义单元,需要聚类相似的镜头为场景。 故事单元式相同的场景经过聚类后形成故事单元。
视频检索的方式目前主要有以下两种:基于关键帧的检索、基于运动的检索。
一个典型的视频检索CBVR系统至少包括媒体库、特征库、方法库和检索界面四部分。 3. 基于内容的音频检索 音频信息检索分:
1)基于语音技术的检索:成果有利用大量词汇语音识别技术进行检索、基于子单词元进行检索、基于识别关键词进行检索基于说话人的辨认进行分割。
2)音频检索:声音训练和分类、听觉检索、音频分割。 3)音乐检索:以音乐为中心的检索。 8.5 分布式多媒体数据库系统
分布式多媒体数据库系统的特点:实时性、同步特性、服务质量、体系结构、客户—服务器结构。
8.6 结构化查询语言 8.6.1 SQL简介
SQL86主要包括以下4部分:模块定义语言、数据操纵语言、模块语言、嵌入式语法。 8.6.2 SQL的5种数据类型:字符型、文本型、数值型、逻辑性和日期型。 1. 基本数据类型
1)字符型:VARCHAR、CHAR 2)文本型:TEXT
3)数值型:INT、SMALLINT、TINYINT 4)逻辑性:BIT
5)日期型:DATETIME、SMALLDATETIME 2. 支持多媒体数据的数据类型
BLOB数据是数据量很大的数据类型,它会占用大量的硬盘空间、内存和网络资源,对提高存储效率、查询速度有很大的影响。
BLOB的设计原则是:使用BLOB数据类型还是使用varchar、存储BLOB在数据库中或者
在文件系统中。
8.6.3 SQL的基本语:创建表、创建索引、改变结构、删除数据对象、执行查询、修改表中数据、数据库切换、统计函数。 8.7 多媒体数据保存和获取示例 8.7.1 图片文件的保存
图片是以二进制的形式保存在数据库中,保存步骤有:1)将图片转换为二进制数组;2)把转换后的二进制作为参数传递给要执行的Command;3)执行Commad。
第9章 多媒体计算机网络
9.1 多媒体网络通信技术
9.1.1 多媒体通信网络的基本结构和特点
1. 多媒体计算机通信网络与人的交互界面主要是文字、图像、图形、声音、等人性化信息,主要体现了人类感觉器官对多媒体信息的自然需求。
人机多媒体交互的双向性:多种多媒体信息提供服务同时我们又在像其输入信息。 2. 多媒体计算机通信网络除了通过人性化多媒体信心与人交互外,还可以通过各种属性信息直接与外界交换。
3. 在多媒体计算机通信网络中,无论是与人交互的人性化的多媒体信息,还是与客观世界直接交互的多媒体信息,在进入计算机通信网络进行处理、存储和传输时,都是转换成统一的数字编码信息。
4. 人对多媒体计算机网络具有特别重要的作用。 9.1.2 计算机网络概述
按辖域分类,计算机网络以分为局域网(LAN)范围10m~1km,速率4Mbps~2Gbps;城域网(MAN)范围10km,速率40kbps~1004Mbps、广域网(WAN)范围100km,速率9.6kbps~45Mbps;互联网(Internet)范围1000km,速率9.6kbps~45Mbps
1.LAN:指分布在数公里范围内的不同物理位置的计算机设备连接在一起,在网络软件的支持下可以互相通信和资源共享的网络系统。其特点一是容易管理和配置,二是容易构成间接整齐的拓扑结构。
2.WLAN:具有以下优点,安装便捷、使用灵活 、经济节约、易于扩张。
3.WAN:由接口信息处理机IMP通过线路连接起来,构成网状结构,IMP主要是寻径。 4.MAN:是介于局域网与广域网之间的一种大范围的高速网络,采样IEEE 802.6标准。 5.Internet:不是一种具体的物理网络技术,而是将不同的物理网络技术按某种协议统一起来的一种高层技术。
传统网络普遍存在以下缺陷:
1.业务的依赖性,般性网络只能用于专一服务,公用电话网络不能用来传送电视信号,X.25不能用来传送高宽带的图像和对实时性要求较高的语言信号。
2.无灵活性,业务扩展的可能性不大,原有网络的服务质量很难适应今后出现的新业务。 3.效率低,个网络的资源很难被其他网络共享。
9.1.3 ATM技术 ATN是一种传输模式,信息被组织成信元,因包含来自某用户信息的各个信元不需要周期性出现,因此这样传输模式是异步的。
ATM信元是固定长度的分组,共有53个字节,分为2个部分。前面5个字节为信头,主要完成寻址的功能;后面的48个字节为信息段,用来装载来自不同用户,不同业务的信息。
9.1.4 IPv6协议:
IP协议诞生于20世纪60年代末期,协议的地址长度设定为32个二进制数位,其中前8位标识网络,后24位标识主机。IPv6的位地址空间为解决IPv4的32地址空间不足,过度方案机制包括,兼容IPv4的IPv6地址、双IP协议栈和基于IPv4隧道的IPv6三种。 9.1.5 ATM与IP
IP协议所具有的最大优势在于:它可以运行在任何介质和网络上,可以保证异种网络的互通,并且,IP技术顺应了计算机不断普及、功能越来越强这一趋势,随着PC应用的扩展而逐步扩大。
1.IP与ATM技术的融合的两种方式:一种是叠加方式,另一种是集成方式。
2.IP与ATM各自的位置:ATM位于核心,作为底层传输技术,帧中继和IP作为较低速的接入,IP用来集成网络的应用功能。 9.1.6 网络接入技术
主要包括铜线接入技术、光纤接入技术、混合光纤同轴(HFC)接入技术等多种有线接入技术以及无线接入技术。
非对称数字用户线路:DSL(数字用户) 是以铜质电话线为传输技术组合,包括HDSL、SDSL、VDSL、ADSL和RADSL等,一般称之为xDSL。它们主要的区别体现在两个方面:信号传输速度和距离的不同,上行速率和下行速率对称的不同。
电缆调制解调器:电缆调制解调器主要用于有线电视网进行数据传输。
电力线接入方案: 电力线通信的噪音主要来源于与低压电网相连的所有负载以及无线电广播的干扰等。 9.1.7 无线接入技术 1.GPRS与WAP
GPRS是一种用于GSM的标准分组交换数据业务,它使移动通信于数据通信想结合。 WAP由是一组通信协议和应用环境构成,它是把网络上的信息传送都无线通信装置上的一个开放是标准协定。 2.蓝牙技术
蓝牙计划是由Ericsson、IBM、Intel、Nokia和Toshiba等公司联合主推的一项最新的无线网络技术。 “蓝牙”是一种短距离通信标准,其技术界面是专用半导体集成电路芯片,用“嵌入”电子器件内。
蓝牙计划主要面向网络中各类数据及语音设备。
3.IEEE 802.11 协议:主要用于解决办公室局域网和校园网中的用户与用户终端之间的无线接入,其支持无线电波和红外线,并且定义了两种认证服务:开放系统认证和共享密钥认证。其他版本还有IEEE 802.11a,IEEE 802.11b,IEEE 802.11g。 4.WiMax WiMax的全名是微波存取全球互通,又称IEEE 802.16标准,或广带无线接入(BWA)标准。它是一项无线城域网(WMAN)技术,是针对微波和毫米波频提出的一种新的空中接口标准。WiMax优势在于:1.实现更远的传输距离 ;2.提供更高速的宽带接入;3.提供优良的最后1km网络接入服务;4.提供多媒体通讯服务。
9.2分布式多媒体计算机系统:分布式系统一般都基于高速网络和轻型协议。 9.2.1 分布式多媒体计算机系统的基本特征:
1. 多媒体综合性:将不同的多媒体、不同类型的信息采用同样的或非常接近的接口,统一进行管理,提高多媒体应用的效率和水平;
2. 资源分散性;是其一个基本特征,是指系统中各种物理资源和逻辑资源在其功能和
地理上是分散的;
3. 运行实时性:实时性分为硬实时软实时,关键是多媒体信息和计算机的正文相匹配。 4. 操作交互性:是指在改系统中发送、传播各种多媒体信息时,采用实时交互式操作方式,随时可以对多媒体信息进行加工处理修改放大和重新组合;
5. 系统透明性:是其主要特征,其原因在于系统中的资源时分散的,用户在全局范围内,使用相同的名字可以共享全局的所有资源。
9.2.2 分布式多媒体计算机系统服务模型:总体来开采用客户端—服务器模型即C/S模型,即把一个复杂的多媒体任务分成两个部分区完成,运行在一个完整的分布式环境中。C/S与系统无关,只是一种设计 分布式多媒体系统就是把多媒体信息的获取、表示、传输、存储、加工、处理 集成为一体,运行在一个分布式计算机网络环境中。 9.2.3 分布式多媒体系统的层次结构
从功能上分5层:多媒体接口层、多媒体传输层、流管理层、多媒体表示层、应用层。 1.多媒体接口层:是系统的底层,系统与各种媒体通信输入输出的接口。其功能是,实现多媒体输入的模\\数转换;实现多媒体输出的数\\模转换;对输入的数据打上时钟标记。
2.多媒体传输层;其功能在于,采用各种协议提供多媒体数据;可实现从远程发送来的数据和本地的数据具有相同的机制,并对高层提供支持。
3.流管理层:其功能,数据源通过下层传输层获取多媒体数据流;向目的地和高层提议多媒体数据;对单一媒体如音频和视频进行压缩编码处理等;流输入的选择和分发。
4.多媒体表示层:其功能,流间和流内的同步;综合同步多媒体数据;对特定流进行处理。
5.应用层:根据不同应用分别配置不同相应软件。 9.2.4 网格
网格:是把整个Internet整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全共享。
网格的定义:网格就是构筑在互联网上的一组新兴技术。它是将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通百姓提供更多的资源、功能和交互性。
网格的构成:网格有虚拟引擎、虚拟操作系统、虚拟中间件、应用软件四个层次构成。 网格的分类根据网格所管理的资源类型,网络通常可以分为计算网格、数据网格、设备网格和应用网格。
网格的应用 9.3 P2P网络
P2P技术称为对等网络技术,是一种用于不同计算机客户之间,不经过中间设备直接交换信息的技术,实质上是一种网络结构思想。 P2P技术的目的就是希望能够充分利Internet中所蕴含的潜在的资源,通过系统中各个结点之间直接的数据通信引导网络计算从中心走向边缘,充分利用终端设备的处理能力,每个结点主动地加入网络享资源。 9.3.1 P2P技术体系结构与分类
P2P技术存在三种结构模式的体系结构:以Napster为代表的集中目录式结构、以Gnutella为代表的纯P2P网络结构和混合式P2P网络结构。
第一代P2P(控制网络体系结构——集中目录式结构) 第二代P2P(分散分布网络体系结构——纯P2P网络) 第三代P2P(混合网络体系结构——混合式网络结构)
新一代P2P 新技术措施:动态口选择之一、双向下载、智能结点弹性重叠网络 9.3.2 P2P网络的特点
1.分散化;2.可扩展性;3.鲁棒性;4.高性能:被广泛关注的重要原因 9.3.3 P2P技术的应用
实时通信、实时比赛和游戏、协同工作、文件共享、共享体验、内容分发、音频和视频、发产品升级补丁、分布式计算、整合计算资源。 9.4 流媒体及其传输协议
流媒体:是指在网络中使用流式传输技术的连续时基媒体。 9.4.1 RTP/RTCP协议
RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。 RTP传输协议的特点:协议的灵活性、数据流和控制流分离、协议的可扩展性和适用性。 RTP协议本身不提供流量控制和拥塞控制功能,它靠一个专门的实时传输控制协议RTCP来实现。RTCP周期性地统计数据包传输时的丢失情况等信息并反馈到服务器端,服务器根据这些反馈信息来制定流量控制的策略,改变传输码率甚至负载类型,大大提高了实时数据的传输性能。 RTCP是RTP的伴生协议,提高传输过程中所需的控制功能。 9.4.2 RSVP协议 RSVP协议时一种可以提供音频、视频、数据等混合服务的互联网综合服务。 RSVP本身并不是路由协议,是与现实或将来出现的点对点传播和多对组播协议一起工作的。 在资源申请建立的过程中,RSVP请求被传输到两个本地模块:接纳控制模块和策略控制模块。
RSVP协议具有下列特性: RSVP可以在点对点传播和多点组播的网络通信应用中进行预留资源申请,可以动态地调节资源的分配,以满足多点组播中组内成员的动态改变,与路由状态改变的特殊要求。 RSVP比较简单,如它只为单向的数据流申请资源。 RSVP是面向接收端的,有数据流的接收端进行资源申请。并负责维护该数据流所申请的资源。 RSVP在路由器和主机端维持“软”状态,解决了组群内成员的动态改变和路由的动态改变所带来的问题。 RSVP并不是一种路由协议,依赖于目前或将来出现的路由协议。 RSVP本身并不处理流量控制和策略控制的参数,而仅把它们送往流量控制和策略控制模块。 RSVP提供几种资源预留的模式供选择,以适应不同的应用需求。 RSVP对不支持它的路由器提供透明的操作 RSVP支持IPv4和IPv6 9.4.3 RTSP协议 RTSP的特点:
可扩展性——新方法和参数很容易加入RSVP
易解析——RSVP可有标准HTTP或MIME解析器解析 安全——RSVP适用网页安全机制
于传输——RSVP可以使用不可靠数据报协议、可靠数据报协议 多服务器支持——每个流可放在不服务器上,用户端自动与不同服务器建立几个并发控制连接,媒体同步在传输层执行
记录设备控制——协议可控制记录和回放记录
流控与会议开始分离——仅要求会议初始化协议提供,或可用来创建唯一会议标识号 适合专业应用——通过SMPTE时标,RSVP支持帧级精度,允许远程数字编辑 第十章 多媒体应用系统 10.1 H.323视频会议系统
10.1.1 H.323协议概述
H.323协议中定义的设备包括了终端、网关、网口管理器、多点控制器和多点控制单元等设备。
H.323提供了多种媒体编码方式,对于音频课采用G.711、G.722、G.728、G.729等。 H.323协议体系的另一个特点是支持分组网上的视频会议,网口管理器、多点控制器和多点控制单元等是视频会议系统的主要控制和转发设备。
H.323会议系统采用了两种基本的呼叫方式,第一是直接呼叫信令模式,在两个终端之间直接传输信令;第二种是利用网口管理器作为信令中继器,转发终端之间的信令。
10.1.2 H.323终端:H.323终端是通过H.323/T.120协议定义的多媒体终端,提供实时的音频和视频双向通信。
10.1.3 H.323网关: H.323网关在采用不同体系结构或协议的网络之间进行互通时,用于提供协议转换路由选择数据交换等网络兼容功能的设施。
10.1.4 H.322多点控制单元:多点控制单元(MCU)主要负责控制多用户接续、数据和声音混合及视频数据的切换等。
一个MCU由多点控制器和若干个多点处理器组成。
在以下两种会议形式中MCU是必须的:在分散式视频会议中,与会终端以多播方式与其他终端广播声音和视频图像;在集中式视频会议中,所有终端都要以点对点的方式向MCU发送声音、视频图像、数据和控制流。
10.1.5 H.323网守:作用是它管辖区域里的所有呼叫的中心控制点,并且为注册的端点提供呼叫服务。
H.323协议中。网守的主要功能是通过RAS规范实现的。它包含的内容是:一个是定义在RAS规范中的地址转换;另一个也是在RAS规范中定义的网络管理功能。 10.2 IP电话 10.2.1 IP电话的概念:IP电话允许在使用TCP/IP协议的因特网、内部网或者专用LAN和WAN上进行电话交谈。
10.2.2 IP和PSTN电话的技术差别
拨打IP电话和在IP网络上传送声音的过程可归纳如下:
1.来自麦克风的声音在声音输入装置中转换成数字信号,生成“编码声音样本”输出。 2.IP电话应用程序估算样本块的能量。
3.在样本块插入样本块头信息,然后封装到用户数据包协议套接接口成为信息包。 4.信息包在物理网络上传送。
5.从缓冲存储器中把声音复制带声音输出设备装换成模拟声音,完成一个声音样本快的传送。
从原理上说,IP和PSTN电话之间在技术上的主要差别是它们的交换结构。因特网使用的是动态路由技术;而PSTN使用的静态交换技术。
10.2.3 IP电话的类型 1. PC到PC 工作原理:软件将从麦克风收集的声音通过声卡转换成数字信号,并在压缩后通过网络
将这些信号传送到接收方一端,再由接收方PC上的软件将所收到的信号解压缩,通过声卡转换为模拟信号后由音箱或耳机播放出来,从而完成整个通话过程。 2.PC到电话
工作原理:计算机到电话类型通话的实现过程。 3.电话到电话
有3中不同的应用形式:
1.通话双方都有计算机与电话直接连接,用户不必直接操作计算机,但是只能进行单点对单点的通话,没有标准的通信服务功能。
2.通话双方都不需要使用计算机,只需各自配备上网账号和专用的IP电话设备。
3.IP电话服务器支持下的“电话到电话”方式,有服务提供商提供全套服务,通话双方不需要增加任何软硬件设备,只需利用现在有电话即可实现IP电话功能。 10.2.4 IP电话标准
重要标准时信号传输协议。信号传输协议是用来建立和控制多媒体回话或者呼叫的一种协议,数据传输不属于信号传输协议。 10.3 即时通信系统
即时通信系统是指使用因特网技术,允许人们实现地传送文本、语音、视频和数据文件等信息软硬件系统。是特点是能让用户可以选择性地接受或拒绝某人的信息,也可以同一时间与多人进行交流。
10.3.1 即时通信系统的设计要求 即时通信系统需要保证数据通信的即时性以及通信过程和信息存储的安全性,为企事业单位的使用者提供信息安全保障,同时减少系统资源的消耗,保证系统运行的低故障率。
其设计要有有:1.数据通信完整与可靠性;2.通信安全性;3.通信效率和公平性;4.系统可控性;5.系统稳定性能; 10.3.2 即时通信的标准
IM有4种协议:即时信息和出息协议IMPP、出席和即时信息协议PRIM、针对即时消息和出席平衡扩展的会议初始化协议SIP/SIMPLE以及扩展的消息和出席协议XMPP。
IMPP主要定义必要的协议和数据格式,用来构建一个具有出席通知、发布能力的即时信息系统。
10.3.3 即时通信的基本流程 Internet中实现通信主要依赖TCP/IP协议。通信双方根据对方的IP地址和端口号,就可以互发数据包来实现通信。 10..3.4 即时通信系统的结构 系统主要为三大部分:服务器端、客户端和注册数据库。 1.即时通信系统的核心功能模块如下:节点命名部分实现对节点的命名,从而为区别不同用户创建条件;共享信息资源命名部分实现对用户提供的可共享文件信息资源命名;节点定位部分实现不同在线用户在Interner上位置的确定;通信服务接口模块是即时通信系统的核心功能模块和具体功能模块之间的接口。具体功能服务模块的实现在通信服务接口映射为一组API的调用。 2.即时通信系统为用户提供的具体功能服务模块如下:聊天服务实现用户之间直接通信和好友上线提醒;信息资源索引提供位于在线用户计算机上的共享文件索引;节点索引提供在线用户索引;系统互连提供一个开放的接口,以便与非本系统用户互连;代理服务为不能直接建立通信的用户提供代理;可以根据需要为用户扩展新功能。 10.3.6 Skype 系统简介 Skype是即时通信的一种,与ICQ、MSN、QQ等所不同的是,它采用了P2P技术和VoIP
技术,为用户提供超清晰的语音通话效果,并且使用端对端的加密技术,保证了通信的安全可靠。 Skype的主要技术特点体现在以下几方面:全球搜索引擎、超强穿透能力,穿透防火墙及NAT、超清晰音质、传超大文本、无延迟消息、安全加密、最大可能的节约资源。 10.4 VOD系统
VOD系统是用来按用户需求将视频信息通过宽带发布的一种方式。VOD服务器环境是非常复杂的,它的设计采用C/S模型,并且适应分布式计算环境。
VOD系统是由在分布式环境中具有不同功能的一些子系统组成。这些子系统包含一个VOD管理工作站、一个或多个控制器和多个数据源。 按照业务的交互性能,VOD大致可分为两种类型:
1.全交互型VOD或真视频点一一根据用户的点播指令,网络向用户提供单独的信息流。 2.准VOD一一每个电影节目按照一定的时间间隔,重复发送有限个信息流,供给所有的点播用户使用,这样点播节目方式的用户得到响应的时间可能在0~15分钟之间。 10.4.1 TVOD系统 TVOD系统具有双向对称的传输容量,人们能够完全实现收视,实时地控制节目的播放,并在收视过程中像使用录像机那样控制节目的快进、快退、暂停等。 1..系统构成 VOD系统是由信源、信道以及信宿组成的。它们分别对应于CATV系统的前端机房、传输网络和用户终端。 2.工作方式
VOD常采用切换方式实现。
3.前端VOD子系统的组成
前端为模拟信号的VOD子系统的组成:节目录入工作站、图文编辑系统、视频服务器、视频解压系统、播控系统、计费系统、视频加扰设备、调制器、交换系统。 4.VOD系统带宽的确定 10.4.2 NVOD系统
NVOD是一种非对称的双工传输系统,解决了用户主动收看电视节目的问题,同时也解决了有线电视双向收看点播节目的用户进行收费问题。
1.NVOD常采用的几种方式:在某一频道循环播放节目、充分利用频道资源、利用计算机网络实现NVOD。
2.适合我国目前情况的一种NVOD
CATV是由点播中心、播控中心、辅助制作中心、模/数转换系统、视频节目库组成。 10.4.3 VOD系统的要求条件
VOD所提供的服务条件是与用户、信息提供者和设备提供者有关,这是系统总体设计要考虑的问题有:给用户提供服务的条件、信息提供者的服务条件、设备提供者的要求条件。 10.4.4 VOD业务
应用在以下领域:校园多媒体网络教室、多媒体图书馆、企业内部培训、多功能网吧、KTV点歌、互动式导览展示系统、宾馆饭店、住宅小区。 10.5 IPTV系统 IPTV即交互式网络电视,是一种利用宽带有线电视网、集互联网、多媒体、通信等多媒体技术于一体,向家庭用户提供包括数字电视在内的多种交互服务的技术。 狭义的IPTV,即包括TV在内的所有业务都承载在IP之上 广义的IPTV所涵盖的业务包括VOD、InternetTV、Mobile Video、Mobisodes、视频游戏、电视上网、收发邮件、电视商务等。
与传统的电视业务相比,IPTV最大的特点是能够进行个性化和实时交互特点的点播服务,还可以开展类似于传统电信业务和互联网业务的其他增值服务。 10.5.1 IPTV系统架构 IPTV 系统分为IPTV平台部分、宽带传送网、用户端IPTV终端三部分。IPTV平台部分主要包括节目采编、数字版权管理、流媒体存储及分发、用户管理、认证授权及计费几部分组成。 目前的IPTV终端分为三种形式,即PC平台终端、IP-SIB(机顶盒)平台终端和手机平台(移动网络)终端。 10.5.2 IPTV关键技术
IPTV属于一种流媒体业务。相关的技术包括:视频编解码技术、流媒体技术、数字版权管理技术、VDN技术、组播技术和运营支撑技术等。 1. 视频编解码技术
2. 数字权管理(DRM) DRM技术的工作原理是:建立数字节目授权中心,编码压缩后的数字节目内容,利用密钥可以被加密保护,加密的数字节目头部存放着KeyID和节目授权中心的URL.用户在点播时,根据节目头部的KeyID和URL信息,就可以通过数字节目授权中心的验证授权后送出相关的密钥解密,节目方可播放。 3. 技术
VDN通过在现有的Internet中增加一层新的网络架构,将中心服务器的内容发布到最接近用户的网络“边缘”,使用户可以就近取得所需的内容,提高用户访问视频的响应速度。 对VDN的基本要求有:
1.管理中心、分发中心和缓存服务点呈层次化网络结构,多个分布式节点之间进行负载均衡和备份,方便地支持性能和功能的扩展。
2.完整的服务认证、计费体系,包括系统管理、用户管理、配置管理、监控统计、内容管理、ICP管理和开通管理。
3.基于应用层方案,支持基于RTSP、HTTP协议的应用层重定向,将用户导向至边缘节点,并通过远程节点的媒体服务系统为最终用户提供流媒体服务
4.实现跨越网络地址转换部署,解决全局负载均衡不能跨越NAT转到私有网络问题。 5.系统具有良好的伸缩性和兼容性 4. 组播技术 它允许一个或多个发送者(组播源)一次、同时发送单一的数据包到多个接收者的网络技术。组播源把数据包发送到特定组播组,而只有属于该组播的地址才能接收到数据包。 其与单播传输相比,组播的优点体现在以下三方面:
1.因为重复数据流被单一传送所代替,从而使的网络带宽得到了更有效地使用。 2.组播的使用大大减少需要服务器需要处理的数据量,减少了服务器的性能。 3.组播可不受客户数量增长的。 10.5.3 IPTV终端
IPTV终端主要有3种类型:个人电脑+软件播放器,电视机+机顶盒,以及用于移动流媒体平台的多媒体手机。
其种类有:基于PC的终端系统、基于STB的终端系统、移动终端系统。 10.6 多媒体消息业务 10.6.1 概述 MMS通常又称彩信。它最大的特点就是支持多媒体功能,能够在支持彩信功能的手机之间或手机与计算机之间传递功能全面的内容和消息,这些信息包括文字、图像、声音、数
据等各种多媒体格式的信息。 SMS短信系统,也有这样的消息中心,但是发送的消息都是文本,所以工作比较简单。 10.6.2 多媒体消息服务系统的构成
多媒体消息服务系统包括以下部分:MMS终端、多媒体消息业务中心、MMS重定向器、MMS用户数据库、外部应用服务器、增值应用服务器以及MMS应用支持系统。 10.6.3 多媒体消息业分类
多媒体消息业务按通信实体划分,可以分为:终端到终端、终端到应用、应用到终端。
1、多媒体的关键特性主要包括信息载体的多样化、交互性和集成性。 2、以下(B)不是数字图形、图像的常用文件格式。 (2)A、.BMP B、.TXT C、.GIF D、.JPG 3、 多媒体计算机系统中,内存和光盘属于 (D) 。 (3)A、感觉媒体 B、传输媒体 C、表现媒体 D、存储媒体 4、所谓媒体是指 (A) 。
(4)A、表示和传播信息的载体 B、各种信息的编码 C、计算机输入与输出的信息 D、计算机屏幕显示的信息 5、用下面 (B) 可将图片输入到计算机
(5)A、绘图仪 B、数码照相机 C、键盘 D、鼠标 6、目前多媒体计算机中对动态图像数据压缩常采用 (C) 。 (6)A、JPEG B、GIF C、MPEG D、BMP 7、多媒体技术发展的基础是 (A) 。
(7)A、数字化技术和计算机技术的结合 B、数据库与操作系统的结合 C、CPU的发展 D、通信技术的发展
8、具有多媒体功能的PC机上常用CD-ROM 作为外存储器,它是 (C) 。 (8)A、随机存储器 B、可擦写光盘 C、只读光盘 D、硬盘 9、多媒体PC是指 (C) 。
(9)A、能处理声音的计算机 B、能处理图像的计算机
C、能进行文本、声音、图像等多种媒体处理的计算机 D、能进行通信处理的计算机 10、下列哪种说法不正确(C)。
(10)A. 预测编码需将预测的误差进行存储或传输。 B.预测编码是根据某一模型进行的。
C. 预测编码是一种只能针对空间冗余进行压缩的方法。 D.预测编码中典型的压缩方法有DPCM、ADPCM。 11、CD-ROM是由(B)标准定义的。
(11)A. B.黄皮书 C.绿皮书 D.红皮书 12、只读光盘CD-ROM的存储容量一般为 (D) 。 (12)A、1.44MB B、512MB C、4.7GB D、650MB 13、下面属于多媒体的关键特性是 (B) 。 (13)A、实时性 B、交互性 C、分时性 D、独占性 14、下面 (A) 不是播放CD片上影视节目的必须设备 (14)A、软驱 B、音频卡 C、视频卡 D、CD-ROM
15、超文本技术提供了另一种对多媒体对象的管理形式,它是一种息组织形式。
(15)A、非线性 B、抽象性 C、线性 D、曲线性 16、多媒体计算机系统的两大组成部分是 (D) 。 (16)A、多媒体器件和多媒体主机 B、音箱和声卡
C、多媒体输入设备和多媒体输出设备
D、多媒体计算机硬件系统和多媒体计算机软件系统
A) 的信 (17、光驱中的单倍速是指读写的速度是 (B) /秒,其它的倍速是把倍速的数字与它相乘
(17)A、300KB B、150KB C、IMB D、10MB
18、、从多媒体硬件的发展来看,今后多媒体卡的主要功能都会集成到 (B) 。 (18)A、计算机显卡B、计算机主板C、计算机内存D、硬盘存储器
19、多媒作过程中,不同媒体类型的数据收集需要不同的设备和技术手段,动画一般通过 (D) 。
(19)A、字处理软件 B、视频卡采集C、声卡剪辑D、专用绘图软件 20、视频信息的最小单位是 (B) 。
(20)A、比率 B、帧 C、赫兹 D、位(bit) 21、下面 (D) 不是计算机多媒体系统具有的特征。
(21)A、媒体的多样性B、数字化和影视化C、集成性和交互性D、形式的专一性
22、同样一块差不多大小的光盘,存储信息量最大的 (C) 光盘 (22)A、LV B、VCD C、DVD D、CD-DA 23、多媒体计算机中的媒体信息是指 (D) 。
(23)A、数字、文字B、声音、图形C、动画、视频D、上述所有信息 24、计算机中显示器显示设备是根据是 (C) 三色原理生成的。 (24)A、RVG(红黄绿) B、WRG(白红绿) C、RGB(红绿蓝) D、CMY(青品红黄) 25、多媒体的特性判断,以下 (A) 属于多媒体的范畴。 (25)A、有声图书 B、彩色画报 C、文本文件 D、立体声音乐 26、多媒体技术未来的发展方向是 (D) 。
(26)A、高分辩率、高速度化 B、简单化,便于操作 C、智能化,提高信息识别能力 D、以上全部
27、在数字音频信息获取与处理过程 ,下述正确的顺序是 (C) 。 (27)A、A/D变换、采样、压缩、存储、解压缩、D/A变换 B、采样、压缩、A/D变换、存储、解压缩、D/A变换 C、采样、A/D变换、压缩、存储、解压缩、D/A变换 D、采样、D/A变换、压缩、存储、解压缩、A/D变换 28、彩色打印机生成的各种颜色是用 (D) 三色相减模型组成。 (28)A、RVG(红黄缘) B、WRG(白红缘) C、RGB(红缘蓝) D、CMY(青品红黄) 29、在 (B) 时,需要使用MIDI。
(29)A、没有足够的硬盘存储波形文件 B、用音乐作背景效果 C、采样量化位数 D、压缩方式 30、以下 (A) 不是常用的声音文件格式。
(30)A、JPEG文件 B、WAV文件 C、MIDI文件 D、VOC文件 31、音频卡是按 (C) 分类的。
(31)A、采样方法 B、声道数 C、采样量化位数 D、压缩方式 32、下面 (D) 不是衡量数据压缩技术性能的重要指标。 (3)A、压缩化 B、算法复杂度 C、恢复效果 D、标准化 33、下面 (C) 不是图像和视频编码的国际标准。 (33)A、JPEG B、MPEG-1 C、ADPCM D、MPEG-2
34、图像序列中的两幅相邻图像,后一幅图像与前一幅图像之间有较大的相关,这是 (B) 。
(34)A、视觉冗余 B、时间冗余 C、信息熵冗余 D、空间冗余 35、DVD动态图像标准是指 (D) 。
(35)A、MPEG-1 B、JPEG C、MPEG-4 D、MPEG-2
36、把普通PC变成MPC要解决的关键技术是 (D) 。 (36)A、视频音频信号的获取技术和输出技术 B、多媒体数据压缩编码和解码技术
C、视频音频的实时处理和特技 D、以上全部 37、多媒体数据具有(D)特点。 (37)A. 数据量大和数据类型多 B. 数据类型间区别大和数据类型少
C. 数据量大、数据类型多、数据类型间区别小、输入和输出不复杂。 D. 数据量大、数据类型多、数据类型间区别大、输入和输出复杂。 38、WinZip是一个 (A) 软件。
(38)A、压缩和解压缩软件B、压缩软件C、解压缩软件D、安装工具软件 39、超文本是一种非线性的网状结构,它把文本可以分为不同基本信息块,即信息的基本单元是 (B) 。
(39)A、字节 B、节点 C、字 D、链
40、在超文本和超媒体中,不同信息块之间的连接是通过 (C) 来连接的。 (40)A、节点 B、字节 C、链 D、字 41、以下 (D) 不是超文本的三个基本要素。 (41)A、节点 B、链 C、网络 D、多媒体信息 42、专门的图形图像设计软件是 (A) 。
(42)A、Photoshop B、ACDSee C、HyperSnap-DX D、WinZip 43、看图软件是 (B) 。
(43)A、Photoshop B、ACDSee C、HyperSnap-DX D、WinZip 44、抓图软件是 (C) 。
(44)A、Photoshop B、ACDSee C、HyperSnap-DX D、WinZip
45、多媒体信息不包括 (B) 。
(45)A、音频、视频 B、声卡、光盘 C、动画、影像D、文字、图像 46、 下列关于dpi的叙述(C)是正确的。
(1)每英寸的bit数 (2)每英寸像素点 (3)dpi越高图像质量越低 (4)描述分辨率的单位 (46) A.(1),(3) B.(1),(4) C.(2),(4) D.全部 47、多媒体个人电脑的英文缩写是 (D) 。 (47)A、VCD B、APC C、DVD D、MPC 48、扫描仪所产生的颜色范围不会是 (B) 种。
(48)A、2048 B、 1000 C、16.8M(2的24次方) D、1024 49、扫描仪可扫描 (A) 。
(49)A、黑白和彩色图片B、黑白图片C、彩色图片D、位图文件形成图片 50、目前广泛使用的触摸技术是属于 (B) 。
(50)A、工程技术 B、多媒体技术 C、电子技术 D、传输技术 51、颜色的三要素包括 (A) 。
(51)A、亮度、色调、饱和度 B、亮度、色调、分辩率 C、色调、饱和度、分辩率 D、亮度、饱和度、分辩率 52、在美术绘画中的三原色,指的是 (C) 。
(52)A、桔黄、绿、紫 B、白、黑、紫C、红黄蓝D、红绿黄 53、国际上常用的视频制式有:(C)
(1)PAL制 (2)NTSC制(3)SECAM制(4)MPEG
A、(1) B、(1)(2) C、(1)(2)(3) D、全部 54、JPEG是 (A) 图像压缩编码标准。
(54)A、静态 B、动态 C、点阵 D、矢量
55、MPEG是数字存储 (B) 图像压缩编码和伴音编码标准。 (55)A、静态 B、动态 C、点阵 D、矢量 56、 (D) 不是用来播放多媒体的软件。
(56)A、超级解霸 B、Windows XP中自的播放软件 C、Real Player D、Authorware
57、在下列各种图像文件中,图像压缩比高,适用于处理大量图像的格式是(A) 。 (57)(A)JPEG文件 (B)BMP文件 (C)TIF文件 (D)PCX 58、静止压缩图像标准是 (D) 。
(58)A、JPG B、MPEG-1 C、MPEG-2 D、JPEG 59、Authorware是一种多媒体 (B) 。
(59)A、操作系统 B、编辑与创作工具 C、数据库 D、应用软件 60、Authorware采用的是一种面向对象的 (A) 创作方式。
(60)A、图标 B、字节 C、节点 D、像素
匹配准则和模型训练技术3个方面。
语音识别的应用:⒈语音邮件集成。⒉数据库输入和询问应用。⒊语音命令和控制应用。
CD—ROM以其容量大、速率快、兼容性强、盘片成本低廉等特点,短时间内还将是PC中除硬盘外的主流存储介质。
闻名世界的“红皮书”协定,符合这种标准的光盘又称为数字激光唱盘。即CD—DA。
从CD—DA过渡到CD—ROM有两个重要的问题要解决:
⒈计算机如何寻找光盘上的数据,也就是如何划分光盘上的地址问题。 ⒉把CD光盘作为计算机的存储器使用时,要求它的错误率远远小于声音数据的错误率。当时的CD—DA技术不能满足这一要求,因此还要采用错误纠正技术。
CD—ROM yellow book 黄皮书
黄皮书在很大程度上继承了红皮书的内容。 CD—R orange book 橙皮书。
CD盘是由保护层、反射激光的铝反射层、刻槽和聚碳酸脂衬垫组成。 CD光盘的结构与磁盘磁道的结构有很大的不同。软磁盘存放的数据的磁道是同心环,磁盘片转动的角速度是恒定的,用CAV表示。采用同心环磁道的好处之一是控制简单,便于随机存取,但由于内外磁道的记录密度不同,外磁道的记录密度低,内磁道的记录密度高,外磁道的存储空间没有得到充分的利用,因此存储器没有达到应有的存储容量。
CD盘采用螺旋形光道,CD盘转动的线速率是恒定的。由于采用了恒定线速率(CLV),所以内外光道的记录密度可以一样,盘片得到了充分的利用。但随机存储特性变得较差,控制也比较复杂。 单倍速光驱的速度:150kb/s Video CD标准
又称为“”,描述的是一个使用CD格式和MPEG标准的数字电视播放系统。 磁盘的记录原理称为磁记录,利用磁铁的两个极性来记忆1和0这两个二进制数。CD盘是利用在盘上压制凹坑的机械方法,利用凹坑的边缘来记录1,而凹坑和非凹坑之间的平坦部分记录为0,使用激光来读出。 帧是激光唱盘上存放声音数据的基本单元。
光驱的速率都是标称的最快速率,而这个数值是指光驱在读取盘片最外圈时才有可能达到的最快速率,而读内圈时的速率却远远低于标称值。
光驱的寻道时间和缓冲区也影响着光驱的性能。寻道时间就是指激光头在接收到读取的命令后,将光头调整到数据的轨道上方所用的时间。因此,光驱的寻道时间是越短越好。
光驱的防振动技术:橡胶减震支架。
光驱正面:光盘托盘、托盘开关、耳机孔和音量控制钮。
光驱背面:⒈四孔的电源接线。⒉一条数据传输线。⒊一条从光驱连接声卡的线,称为CD音频线。
激光头是光驱的心脏,也是最精密的部分,它主要负责数据的读取工作。
光盘上压制了许多凹坑,激光束在凹坑部分反射的光的强度,要比从非凹坑部分反射的光的强度弱,光盘就是利用这个简单的原理来区分1和0的。 DVD是数字电视光盘。
提高光盘容量的办法:减小光道间距和凹坑尺寸是最主要的方法。另一种办法是增加层数。其容量与层数成正比。
DVD可以使人们欣赏到更清晰的图像,高品质的音响和更丰富的图形。DVD可以做到双层双面,存储容量高达17G。
DVD音频格式采用了杜比AC—3技术,包括两个立体声声道和5.1环绕立体声声道。
DVD光盘的生产过程:⒈数据处理。⒉母盘刻录和压模制备。⒊复制。⒋黏合。 DVD面板:进碟仓、播放键、暂停键、停止键、液晶显示屏、快速换曲、搜寻键、电源开关。
DVD播放机内部主要由5部分组成:托盘,电源电路板,影音解码板,功能控制电路板,影像音频转换输出板。
CD—R橙皮书标准。CD—MO,可擦写。CD—WO,不可擦写。 CD—R有绿盘,金盘,蓝盘。
刻录机主要有整盘刻写、轨道刻写、多段刻写。
CD—RW是CD—R的一种补充,兼有CD—R刻录和数据存储两大功能。 CD—RW刻录机也有倍速之分:刻录速率,写入速率,读取速率。 CD—RW盘片在使用前需要格式化。 光驱的应用技术: 1)True X技术
2)人工智能纠错(AIEC)技术 3)自动平衡系统(ABS)
4)双动态抗震悬吊系统(DDSS)技术 5)数字伺服系统技术
第六章 多媒体计算机软件
多媒体软件分为五类:驱动程序,支持多媒体的操作系统或环境,多媒体数据库准备软件,多媒体编辑创作软件,多媒体应用软件。
多媒体系统中直接和硬件打交道的软件称为设备驱动程序,它完成设备的初始化、设备各种操作以及基于硬件的压缩和解压缩、图像快速变换等基本硬件功能调用。
多媒体操作系统在驱动软件之上,它是多媒体软件的核心:负责多媒体环境下多任务的调度;保证音频、视频同步控制以及信息处理的实时性;提供多媒体信息的各种基本操作管理;具有对设备的相对性与可扩展性。
目前的操作系统在支持连续媒体应用中还面临着许多问题:一,操作系统缺乏实时性支持,它只能提供更好的计算能力。二,缺乏基于服务质量的管理,以使系统能够保证现有应用的服务质量。
正在运行的应用程序叫进程,一个进程可以有一个或多个线程。
我们一般称数字音乐、数字视频等为多媒体,Microsoft又给它起了一个新名字——数字媒体。
多媒体数据准备软件是用于采集多种多媒体数据的软件,如声音录制、编辑软件、图像扫描及预处理软件、全动态视频采集软件和动画生出编辑系统。 WINDOWS环境下声音数据的采集: 1)打开波形输入设备 2)为采样数据分配缓冲空间 3)启动波形输入设备
4)关闭语音输入设备使用Video for Windows(VFW)来获得视频流
AVICap支持实时的视频流捕获和单帧捕获并提供对视频源的控制。显示视频时提供两种模式:
1)预览(Preview)模式:使用CPU资源,视频先从捕获硬件传到系统内存,接着采用GDI函数在捕获窗中显示。
2)叠加(Overlay)模式:使用硬件叠加进行视频显示,叠加视频的显示不经过VGA卡,叠加视频的硬件将VGA的输出信号与其自身的输
出信号合并,形成组合信号显示在监视器上。
WINDOWS环境下视频数据的采集: 多媒体创作工具的评测标准:
多媒体创作工具的分类:媒体创作软件工具(用于建立媒体模型、产生媒体数据),多媒体节目写作工具(提供不同的编辑、写作方式),媒体播放工具(可以在计算机上播出,有的甚至能在消费类电子产品中播出)以及其他各类媒体处理工具。 音频数据处理软件是为多媒体计算机应用录制、编辑、修改数字化声音的工具软件,在windows环境下的数字化声音文件格式是波形声音文件。 一个完整的数字化声音处理软件应包括以下功能:
动画是通过以每秒15——30帧的速度顺序地播放静止图像以产生运动的错觉。如macromedia公司推出的flash和fireworks软件。
所谓流媒体技术,是指将音频文件和视频文件变换成若干个数据小包,在网上像流水一样地传送。这样可以下载一个小包就播放一个,在播放的同时,后台下载其他小包,这样就避免了漫长的等待时间。目前应用最广泛的是real格式的影音文件。Real networks
公司出品的realproducer可以将常见的音、视频文件转换成real格式的文件。 由于rm格式的编码比mp3的压缩率还要大,所以可以得到更小的磁盘占用空间。 第七章 多媒体文档的组织和设计
超文本被定义为:由信息结点和表示信息结点间相关性的链构成的一个具有一定逻辑结构和语义的网络。结点可以包含文本、图形、音频、视频、源程序或者其它形式的数据。包含多媒体的超文本称为“超媒体”。 超文本系统的基本特征:
基于超文本信息管理的系统称为超文本系统。基本特征: 1)图形用户接口
2)向用户给出一个网络结构动态总貌图 3)一般使用双向链
4)包含管理结点和链信息的引擎
5)尽可能不依赖于它的具体特征、命令或信息结构,而更多强调的是它的用户界面的“视觉和感觉”。
节点和链
超文本系统由结点(node)和链(link)组成。一个结点通常表示一个单一的概念或围绕某一特殊主题组织起来的数据集合,是表达信息的一个基本单位,它可以包含文本、图形、动画、音频、视频、图像或者一段计算机程序。
一个结点通过链与另一个或多个结点连接起来,链也是组成超文本的基本单位,一般结构可分为部分:链源、链宿及链的属性。链源是导致结点信息的原因。链宿是链的目的所在,通常都是结点。链的属性指链的版本、权限等。
超文本充分利用了计算机的特点,它主要体现在3个方面:访问速度快,文献容纳的信息量大,以及链和结点可以动态地改变。 超文本系统的用户接口 1)图形浏览器 2)Web视图 3)地图和概貌图 4)路径和形迹
历史上著名的几个超文本系统:
HTML语言,万维网依靠3种技术:⒈URL即制定网上信息资源地址的统一命名法。⒉HTTP即存取资源的协议。⒊在资源之间很容易浏览的超文本链接技术。 HTML文档是一种没有格式的文档,也称为ASCⅡ文件,因此,HTML文档可以使用任何一种文本编辑器来编写,如windows中的记事本
notepad、写字板wordpad等。
一个HTML文档通常由文档头head,文档名称title,表格table,段落paragraph和列表list,我们把这些成分称为文档元素element,简称为文素,使用HTML语言中的标签tag来标识这些文素。 HTML标签名称中的字母不分大小写, 1)HTML标签: 2)文档头标签:
3)文档名称标签:4)正文标签:
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- gamedaodao.com 版权所有 湘ICP备2022005869号-6
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务