1、文本概述
文字:一种书面语言,由一系列称为“字符”(character)的书写符号构成。
文本:文字信息在计算机中的表示形式,是基于特定字符集的、具有上下文相关性的一个(二进制编码)字符流,是计算机中最常用的一种数字媒体。组成文本的基本元素是字符,字符在计算机中采用二进制编码表示。
2、文本处理
文本在计算机中的处理过程:文本的准备(如汉字的输入)、文本编辑、文本处理、文本存储与传输、文本展现等,根据使用的不同,各个处理环节的内容和要求可能有很大的差别。
5.1.1 文本的表示与字符的编码
1、文本的表示
文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。
2、西文字符集编码
字符集:常用字符的集合。
西文字符集:由拉丁字母、数字、标点符号及一些特殊符号组成。
字符的编码:字符集中每一个字符各有一个代码,即字符的二进制表示,称为该字符的编码。
(1) 标准ASCII编码字符集。
美国标准信息交换码(American Standard Code for Information Interchange):使用7个二进位对字符进行编码(叫做标准ASCII码),称为ISO - 6标准。基本的ASCII字符集共有128个字符,其中包括96个可打印字符(常用字母、数字、标点符号等),32个控制字符。
常用的特殊字符的ASCII码:空格(32)、A(65)、B(66)、…、Z(90)、a(97)、b(98)、…、z(122)、数字0(48)、1(49)、…、9(57)。
其编码规则为:用7位二进制数对每一个字符进行编码(字符的ASCII码),在计算机内部则用字符的ASCII码存储和表示该字符。在计算机中的存储方法是:用一个字节(8位)来存储一个字符的ASCII码。每个字节中多出来的最高位一般保持为“0”。
(2)扩充ASCII编码字符集。
标准ASCII字符集只有128个不同的字符,在很多使用中无法满足要求。按照IS02022标准(《七位字符集的代码扩充技术》)的规定,ISO陆续制定了一批适用于不同地区的扩充ASCII字符集,每个扩充ASCII字符集分别可以扩充128个字符,这些扩充字符的编码均是高位为“1”的8位代码(十进制数128~255),称为扩展ASCII码。
3、汉字编码字集
(1) GB2312-80汉字编码字符集。
《信息交换用汉字编码字符集·基本集》(GB2312-80),其组成部分包括:
第一部分:字母、数字和各种符号,包括拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共682个(统称为GB2312图形符号)。
第二部分:一级常用汉字,共3755个,按汉语拼音排列。
第三部分:二级常用字,共3008个,按偏旁部首排列。
① 区位码:GB2312国标字符集构成一个二维平面,它分成94行、94列,行号称为区号,列号称为位号。每一个汉字或符号在码表中都有各自的位置,字符的位置用它所在的区号(行号)及位号(列号)来表示。每个汉字的区号和位号分别用1个字节来表示。如:“大”字的区号20,位号83,区位码是2083,用2个字节表示为:00010100 01010011B(即十六进制1453H)。
② 国标交换码:将GB2312字符集中每个汉字的区号和位号必须分别加上32(即二进制0010 0000,十六进制20H),就可以得到该汉字的“国标交换码”(简称交换码)。因此,“大”字的国标交换码是:00110100 01110011B(即十六进制3473H)。
③ 机内码:把一个汉字看作两个扩展ASCII码,使表示GB2312汉字的两个字节的最高位(b7)都等于“1”。这种高位为1的双字节(16位)汉字编码就称为GB2312汉字的“机内码”,又称内码。即将汉字的区号和位号必须分别加上160(即二进制1010 0000,十六进制AOH),就可以得到该汉字的“机内码”。如:“大”字的机内码是:10110100 11110011(即十六进制B4F3H)。
综上所述,可以总结如下公式:国标码=区位码+2020H,机内码=区位码+A0A0H。
(2)GBK汉字编码字符集。
GB2312-80只有6763个汉字,使用时功能不够。1995年发布GBK,全称为《汉字内码扩展规范》 GBK字符集中一共有21003个汉字和883个图形符号,它与GB2312国标汉字字符集及其内码保持兼容。它除了包含GB2312中的全部汉字和符号,还包括繁体字和中、日、韩文字中的大量汉字。
GBK的编码是用2字节编码表示,第1字节的最高位必为“1”,第2字节的最高位不一定是“1”。与 GB2312-80保持兼容。
(3)UCS/Unicode与GB18030汉字编码标准。
① 通用编码字符集UCS/Unicode。全世界约有6800种语言和文字在使用,需要建立一个多文种文字处理环境。在ISO2022基础上,使用代码页号切换不同字符集的方法过于繁琐,且与其他系统不兼容。UCS/Unicode实现了所有字符在同一字符集中统一编码。UCS/Unicode用4个字节对全世界现代书面文字所使用的所有字符、符号进行编码(记作UCS-4)。
其优点是编码空间极大,能容纳足够多的各种字符集(13亿字符);缺点是4字节的字符编码使存储空间浪费严重。
② GB18030-2000编码。GB18030-2000汉字编码标准是为了既兼容GB2312和GBK,又尽快向 UCS/Unicode编码标准过渡,而在2000年颁布的汉字编码国家标准。该标准在GB-2312和GBK的基础上进行扩充,增加了4字节编码,能完全映射UCS/Unicode基本平面和辅助平面中的字符集,收录的汉字达到27000个。
例1:(单选)在ASCII编码中,字母A的ASCII编码为41H,那么字母f的ASCII编码为( )。
A.46H B.66H C.67H D.78H
参:B
分析:此题是考查学生对于ASCII编码表的掌握情况,由题目中所给的字母A的ASCII编码为41H这个已知条件,可以推导出a的ASCII编码为61H,再考虑ASCII编码表中字母的顺序是连续的,所以可以得出b的ASCII编码为62H,以此类推可得出f的ASCII编码为66H。
例2:(单选)下列汉字编码标准中,不支持繁体汉字的是( )。
A.GB2312-80 B. CBK C. BIG 5 D. GB18030
参:A
分析:此题的重点在于考查学生对一些基本知识的记忆,作为不同的汉字编码标准,考生应该熟记每一种编码内的汉字和字符的数目,以及其中主要包括哪些字符(简体中文、繁体中文、日文、韩文等)。
例3:(判断)西文字符在计算机中通常采用ASCII码表示,每个字节存放1个字符。( )
参:对
分析:西文字符的基本元素是英文字母、数字和符号。每个字符在计算机中采用二进位编码形式表示。目前计算机中使用得最广泛的西文字符集的编码称为ASCII码,它一共有128个字符,包括96个可打印字符(常用的字母、数字、标点符号等)和32个控制字符,每个字符使用7个二进位进行编码。还有一种扩充ASCII码,它是不同地区和国家在ASCII字符集的基础上,为了适应本地区(本国)的需要扩充而成的,共256个字符,每个字符使用8个二进位进行编码。由于字节是计算机中最基本的存储和处理单位,无论是7位的标准ASCII码还是8位的扩充ASCII码,一个字节只存放一个ASCII字符。若使用7位标准ASCII码,每个字节多余出来的一位(最高位)通常保持为“0”,在数据传输时它也可作为奇偶校验位使用。
例4:(判断)采用GB2312、GBK和GB18030三种不同的汉字编码标准时,一些常用的汉字如“中”、“国”等,它们在计算机中的表示(内码)都是相同的。( )
参:对
分析:GB2312、GBK和GB18030是我国从20世纪80年始先后制订与发布的三个汉字编码标准,它们的主要区别是字符集中所包含的图形符号和汉字的数目不同,后发布的标准中收录的字符总是涵盖了已发布标准中的所有字符,而且,为了保证已有的大量数字资源仍可方便地继续使用,在三个标准中所包含的相同字符,它们在计算机中的表示(内码)也都保持相同(即保持向下兼容)。因此,本题的论述是正确的。需要注意的是,汉字编码标准有多种,GB2312(GBK、GB18030)中的汉字(如“中”、“国”等)在Unicode、Big5或旅美华人使用的HZ码中,代码并不相同。
例5:(单选)下列有关我国汉字编码的叙述中,错误的是( )。
A. GB2312国标字符集所包含的汉字许多情况下已不够使用
B. GBK字符集既包括简体汉字,也包括繁体汉字
C. GB18030编码标准中所包含的汉字数目超过2万字
D. 不论采用上述哪一种汉字编码标准,汉字在计算机中均采用双字节表示
参:D
分析:我国制订与发布的汉字编码标准主要有三个:GB2312、GBK和GB18030,它们的区别在于所收录的汉字和图形符号数量不同。GB2312仅仅收录了6763个常用汉字,且不包含繁体字在内,因此许多情况下(如人名、地名等)已不够使用。GBK一共有21003个汉字,除了GB2312中的全部汉字和符号之外,还收录了包括繁体字在内的大量汉字和符号。GB18030所包含的汉字数目则增加到27000多个,包括全部中日韩(CJK)统一汉字字符集和CJK汉字扩充中的所有字符,能适应出版、邮政、户政、金融、地理信息系统等迫切需要解决的人名、地名用字问题。至于这三个标准中汉字的编码问题,在 GB2312和GBK中,所有汉字在计算机中都使用2个字节表示和存储,但GB18030汉字数量很大,而且还要照顾到进一步扩展的需要,因此多数汉字使用2字节编码(且与GB2312、GBK保持相同),还有少数汉字使用4字节编码。综上所述,本题的选项应为D。
5.1.2 文本的输入
1、文本的输入
文本输入是将文字输入到计算机中,建立文本文件(电子文档)的操作。
2、文字输入方法概述
(1)人工输入。方法:键盘输入、手写笔联机识别输入、语音识别输入;特点:速度慢、成本高,不适合需处理大批量文字的使用。
(2)文字自动识别输入。将纸介质上的文本通过识别技术自动转换为文字的编码。方法:印刷体文字识别输入,手写体文字脱机识别输入;特点:速度快,效率高,有误差。
3、键盘输入
使用键盘可输入西文字符、汉字、各种符号与控制命令。
汉字键盘输入编码特点有:易学习、易记忆、效率高(平均击键次数较少)、重码少、容量大(可输入的汉字字数多)等。
汉字输入编码大体分成四类:
(1)数字编码。例如,电报码、区位码。其优点是无重码;缺点是难记忆。
(2)字音编码。例如,拼音码、智能ABC、微软拼音输入法。优点:简单易学;缺点:同音字引起的重码多,需增加选择操作,不会读音或发音不准的汉字难以输入。
(3)字形编码。例如,五笔字形和表形码。优点:重码少、输入速度较快;缺点:编码规则不易掌握,需强记大量拆分规则。
(4)形音编码。吸取了字音编码和字形编码的优点,使编码规则适当简化、重码减少,但掌握起来也不容易。
4、手写体文字联机识别输入
把要输入的文字写在一块叫书写板的设备上,书写板将笔尖的运动(包括抬笔、落笔、笔段轨迹以及各笔段之间的时间关系等)按时间采样后发送到计算机中,由计算机软件自动进行识别,然后用该文字(或符号)对应的代码进行保存。
5、语音识别输入
语音识别输入是计算机识别人的语音后将其转换为文本并保存下来的过程。使用语音输入文本的系统也叫做“听写机”或“语音打字机”。
优点:简单、方便;缺点:读音不准影响输入的正确率。目前,语音识别技术对特定人连续语音识别正确率可达90%。
6、印刷体文字识别输入
印刷体文字识别输入是将介质上的印刷体文字经扫描输入或成像到计算机转换为数字图像,再经过识别后将数字图像转换为文字编码(文本)的技术,也叫做OCR。
目前,印刷体文字识别能识别近3万简繁体汉字(GBK和GB18030),基本解决了中西文混排、文字表格混排、多字体多字号的识别问题,识别率达99%。
7、手写体文字识别输入
手写体文字识别输入是将介质上的手写体文字输入到计算机并转换为文字编码的技术。手写体文字既无笔划特征,又无书写规范,进行识别比较困难,目前仍处于研究阶段。
5.1.3 文本文件的类型
文本是计算机表示文字及符号信息的最常用也是最基本的一种数字媒体。由于文字和符号采用了二进制编码表示,因而可以方便地进行编辑、排版和各种分析处理(如统计、排序、分类、索引、检索等)。使用计算机制作的数字文本,根据用途分为:简单文本、丰富格式文本和超文本三类。
1、简单文本文件(纯文本)
简单文本是由一连串的字符组成的,除了用于表达正文内容的字符(包括汉字)及“回车”、“换行”、“制表”等有限的几个打印(显示)控制字符之外,几乎不包含任何其他格式信息和结构信息。这种文本通常称为纯文本或ASCII文本,文件后缀名是TXT。
简单文本的特点是:呈现为一种线性结构,以行、字为单位,顺序写作与阅读是最通用的文本文件格式,文件体积小,阅读不受,几乎所有的文字处理软件都能识别和处理,不能插入图片、表格等,不能建立超链接。Windows附件中的“记事本”所创建的文件就是简单文本文件。
2、丰富格式文本文件
文件内容有字符(汉字)的编码、数字图像、数字声音、数字视频信息、标记信息(格式信息、结构信息、链接信息等)。例如,RTF文件、DOC文件、PDF文件、HTML文件。
RTF格式文件:RTF是为便于不同的丰富格式文本能在不同的软件和系统中互相交换使用而提出的一种中间格式标记语言,可用Windows写字板程序创建。
PDF格式文件:PDF格式文件将文字、字型、格式、颜色、图形、图像、超文本链接、声音和视频等信息都封装在一个文件中。除了能描述复杂版面外,还具有超链、交互和字体仿真等功能。不仅适合网络和电子出版,也适合印刷出版,它实现了纸张印刷和网络出版的统一,PDF文件在交付印刷的同时,可以直接进行网络发行。它已经是电子出版领域的一种事实上的标准,被许多文本处理和电子出版软件所采用。
3、超文本文件
超文本也称为非线性文本,文本的组织结构是网状结构,即包含链接信息的丰富格式文本。阅读时除顺序阅读方式之外,还可以通过跳转、导航、回溯等操作,实现对文本内容更为方便的访问。例如,Windows中的“帮助”文件或者使用浏览器从Web服务器上下载的网页(html或htm文件)。
超文本文件特点有:
(1)各信息块按照其内容的关系互相连接,这些文本块可以是不同的文本,也可以是同一文本中的若干不同的组成部分。
(2)每个文本块都有一些指向其他文本块或从其他文本块指向该文本块的指针(超级链接),这些指针从文本块内部的某个位置指向另外一个文本块的起始位置,用于实现文本阅读时的快速跳转。
超链是有向的,起点位置称为链源,目的地(目标)称为链宿。链源可以是节点中的一个标题、句子、关键词、字、一幅图像、一个图标等。链宿可以是节点,也可以是系统中的一个文件(包括文件的标签)或者程序。
网页中的超文本文件还分静态文档、动态文档、主动文档。
例1:(单选)下列关于文本的叙述中,错误的是( )。
A. 不同文字处理软件制作的丰富格式文本通常互不兼容
B. 纯文本的文件扩展名为“.txt”
C.“.doc”文件中不只包含西文字符和汉字,并且含有许多字符属性和格式标记
D. 超文本既可以是丰富格式文本,也可以是纯文本
参:D
分析:本题所说的文本指的是计算机制作的文本,也称为电子文本或数字文本,它是我们使用得最多的一种数字媒件。文本的制作除了将字符输入计算机之外,还需要借助于文字处理软件对文本进行编辑排版,使文本清晰、美观、使用方便。在此过程中,软件会使用某种“标记语言”记录用户对文本的格式和字符的属性所做的设置。由于不同的文字处理软件采用了不同的标记语言,因此经过编辑排版得到的丰富格式文本即使外观相同,内部表示也未必一致,不经转换相互之间不能交换使用。例如Word所生成的.doc文件不能用Acrobat Reader读出和修改,PDFWriter生成的.pdf文件也不能用Word读出和修改,这种情况称为不兼容。如果文本仅仅由一连串的字符代码所组成,不包含任何版面格式和字符属性的标记信息,这就是纯文本,或者称为简单文本。纯文本的文件扩展名为“.txt”,几乎所有的文字处理软件都可以读出和修改纯文本。超文本虽然强调的是按信息块将文本组织成为网状结构,并没有特别强调文本的外观和格式,但是,它使用的“链源”和“链宿”等均需要在文本中采用特定标记语言进行标记,从这个角度而言,超文本一般都是丰富格式文本,而非纯文本。综上所述,本题中选项D是错误的。
例2:(填空)有一本英文小说,它在计算机中用纯文本形式表示,文件扩展名为“.txt”,大小为 35KB,该小说所包含字符(字母、数字、标点符号等)的总数大约是 个。
参:35840
分析:在计算机中用纯文本形式表示的英文小说,其中包含的仅仅是采用ASCII码(7位或8位)表示的西文字母、数字和一些标点符号,每个字符使用1个字节进行存储,由于文件扩展名为“.txt”,表示该文件没有进行数据压缩。因此,这本小说所包含字符(字母、数字、标点符号等)的总数大约是35×1024=35840个。
5.1.4 文本的编辑处理与检索
1、文本编辑的主要功能
(1)对字、词、句、段落进行添加、删除、修改等操作。
(2)字的处理:设置字体、字号、字的排列方向、间距、颜色、效果等。
(3)段落的处理:设置行距、段间距、段缩进、对称方式等。
(4)页面布局的处理:设置页边距、每页行列数、分栏、页眉、页脚等。
“所见即所得”(What You See Is What You Get,简称WYSIWYG):一方面所有的编辑操作效果立即可以在屏幕上看到,另一方面在屏幕上看到的效果与打印机的输出结果相同。
2、文本处理内容
(1)字数统计、字频统计、简/繁体相互转换、汉字/拼音相互转换。
(2)词语排序、词语错误检测、文句语法检查。
(3)自动分词、词频统计、词性标注、词义辨识、/术语转换。
(4)文本压缩、文本加密、文本著作权保护。
(5)关键词提取、文摘自动生成、文本分类。
(6)文本检索(关键词检索、全文检索)、文本过滤。
(7)文语转换(语音合成)、文种转换(机器翻译)。
(8)篇章理解、自动问答、自动写作等。
3、常用文本处理软件
(1)面向通信的文本处理软件。
计算机网络上最普及的使用是用电子邮件进行通信。大多数情况下,电子邮件正文的内容一般都是简单文本,因此电子邮件内嵌的文本编辑器功能比较简单,操作使用方便。
例如,微软公司的Outlook Express,具有文字的增、删、改以及字体、字号的设置功能,也可以设定一些简单的格式和插入一些图片。当然,邮件所带的附件并不受此。在互联网上进行聊天所使用的文本处理软件更加简单。
(2)面向办公的文本处理软件。
该类软件要求文本制作要有高效率、高质量,软件面向非专业用户,易学好用,文本处理能力,既功能丰富,又操作简单。
例如,Word、WPS2000。
(3)面向出版的文本处理软件。
该类软件的主要功能是将文字、图形和图像等合理地安排在页面内。
例如,方正集团公司的“飞腾”排版软件、美国Adobe公司的PageMaker和PDF Writer。
(4)面向网络信息发布和电子出版的文本处理软件。
例如,微软的FrontPage、Acrobat软件。
4、文本的检索
文本检索是信息提供方将文本按一定的方式组织、储存、管理,并根据用户的检索要求查找到所需文本的技术和使用。
(1)文本检索过程。
① 用户提问。即给出查询要求(例如,文本的标题、作者、类型、所包含的关键词等),多个提问词可使用“与”、“或”、“非”等逻辑运算进行组合。② 检索软件将用户查询要求与索引数据库中的索引数据进行匹配,找出与查询要求相关的文本的地址。③ 系统按地址从文本库中取出对应的一组文本,经过分析后,按照与查询要求的相关程度(从高到低排序)返回给用户。
(2)文本检索系统的类型。
① 书目型标引检索系统。用户提问词是索引(如主题、分类、作者等),检索结果是与索引匹配的所有文本。例如,国际联机检索系统DIALOG、MEDLINE、OCLC和中国学术期刊全文数据库,中文科技期刊全文库。
② 全文检索系统。用户提问词是文本正文中出现的词或句子,检索结果是所有正文中包含了提问词的文本。
5、Web搜索引擎
Web服务器使用软件robot遍历Web,将Web上的信息下载到本地文档库,然后对文本内容进行自动分析并建立索引,在用户提出检索请求时,搜索引擎通过检查索引找出匹配的文本(或URL地址)并返回给用户。
例如,搜狐(Sohu)、谷歌(Google)、雅虎(Yahoo)、新浪(Sina)、百度(Baidu)等。
5.1.5 文本的展现
数字电子文本主要有两种表现方式:打印输出和在屏幕上进行阅读、浏览。由于存放在计算机存储器中的文本是数字形式的、不可见的,因此,无论是打印还是屏幕显示,都包含了文本的展现过程。
文本展现的大致过程是:首先要对文本的格式描述进行解释,然后生成字符和图、表的映像 (bitmap),最后在传送到显示器或打印机输出。承担上述文本输出任务的软件称为文本阅读器或浏览器。它们可以嵌入在文字处理软件中,如微软的Word;也可以是的软件,如Adobe公司的Acrobat Reader、微软公司的IE浏览器等。
数字电子文本虽然有许多优点,但阅读时需要使用专门的设备和软件,成本较高,也不方便,它还容易被修改和复制,版权保护和信息安全不易保证。此外,限于当前显示器的技术水平,阅读电子文本时人们的信息感知效率较低,容易疲劳。这些都是有待进一步解决的问题。
5.2.1 图形图像的基本概念
1、色光的三基色
色光的三基色是:红(Red)、绿(Green)、蓝(Blue)。
三基色以不同的比例相混合,可成为各种色光。自然界中任何一种色光都可由R、G、B三基色按不同的比例(光量)相加混合而成。三基包不能由其他色光混合而成。当三基色分量都为0(最弱)时混合为黑色光。当三基色分量都为K(最强)时混合为白色光。
2、颜料的三基色
颜料的三基色是:青(Cyan)、品红(Magenta)、黄(Yellow)。
三基色颜料以不同的比例相混合,可产生各种颜色的颜料,但在印刷或者打印时,对黑色的处理有问题,因此需增加黑色。
3、色彩的表达方法
(1) RGB色彩空间(RGB为色光的三基色)。
R——红色(Red),G——绿色(Green),B——蓝色(Blue)。
典型使用是计算机的彩色显示器。计算机彩显采用了R、G、B三基色相加混色的原理,即显示器的显像管发射出三种不同强度的电子束打到屏幕上,使屏幕内侧覆盖的红、绿、蓝三种磷光材料发光并混合而产生不同的色彩。
(2)YUV色彩空间。
Y——亮度信号,U、V——色差信号。
典型使用是彩色电视系统。彩色电视通常采用三管彩色摄像机或彩色CCD摄像机,把摄得的彩色图像信号经分色、分别放大校正后得到RGB信号,再经过矩阵变换电路得到YUV信号,最后发送端将YUV三路信号分别进行编码,用同一信道发送出去。
彩色电视系统采用YUV色彩空间是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题,使黑白电视机也能接收彩色电视信号。亮度信号Y和色度信号U、V是分离的。如果只有Y信号分量而没有U、V分量,这样表示的图就是黑白灰度图。在彩色电视系统中,仅传输中用YUV,成像(摄像)和显像(显示)都用RGB。
(3)HIS色彩空间。
H——色调(Hue),I——亮度(Intensity或Brightness),S——色饱和度(Saturation或Chroma)。
HIS色彩空间是从人的视觉系统出发描述色彩。
(4)CMYK色彩空间。
C——青色(Cyan),M——品红色(Magenta),Y——黄色(Yellow),K——黑色(Black)。 典型使用为彩色打印系统、彩色印刷系统。打印时用青、品红和黄三基色颜料混合(CMY)。印刷时用等量的CMY三基色颜料得到的黑色不是真正的黑色,因此常加一种真正的黑色(CMYK)。
一幅图像在计算机中显示用RGB色彩空间,编辑处理用RGB或HSI色彩空间,打印时转换成CMY色彩空间(彩喷打印也用CMYK),印刷时转换成CMYK色彩空间。
4、数字图像的分类
图像(Image):从现实世界中通过数字化设备获取的图像;图形(Graphics):由计算机合成的数字图像。
5.2.2 图像的获取与重现
1、图像的获取
图像的获取是从现实世界中获得数字图像的过程,图像获取的过程实质上是模拟信号的数字化过程,它的处理步骤有:取样、分色、量化。
2、图像的数字化过程
模拟图像的数字化过程为:取样→分色→量化。
(1)取样:将画面划分为M × N个网格,每个网格称为一个取样点。一幅模拟图像就转换为M × N个取样点组成的一个阵列。每个取样点只有一种颜色或亮度,取得所有取样点的颜色或亮度。
(2)分色:若是彩色图像,则将每个取样点的颜色分解成三个基色(例如R,G,B),对应有3个亮度值,如果不是彩色图像,则每一个取样点只有一个亮度值。
(3)量化:对取样点的每个分量的亮度值进行A/D转换,把模拟量的亮度值用数字量(一般是8位至 12位的正整数)来表示。
3、数字图像获取设备
从现实世界获得数字图像的过程中所使用的设备通称为数字图像获取设备。它的功能是将现实的景物输入到计算机内并以取样图像的形式表示。常见的数字图像获取设备有2D图像获取设备(如扫描仪、数码相机等),它只能对图片或景物的2D投影进行数字化,而3D扫描仪,它能获取包括深度信息在内的3D景物的信息。
4、数字图像的重现
(1)将数字图像信息送往显示器在屏幕上显示图像。将组成数字图像的所有像素点的编码值直接送往显示卡的显示缓冲存储器,由显示卡及监视器实现图像的显示功能。
(2)将数字图像信息送往绘图仪,在纸上绘制图像。
例1:(单选)图像获取的过程实质上就是对图像进行数字化的过程。将一幅彩色图片数字化的主要步骤依次是( )。
A. 分色、扫描、量化、取样 B.扫描、量化、分色、取样
C. 扫描、分色、取样、量化 D. 扫描、取样、量化、分色
参:C
5.2.3 数字图像的表示与压缩编码
从取样图像的获取过程可以知道,一幅取样图像由M(行)×N(列)个取样点组成,每个取样点是组成取
样图像的基本单位,称为像素(Picture Element,简写为PEL)。彩色图像的像素是矢量,它由多个彩色分量组成,黑白图像的像素只有1个亮度值。
1、数字图像的表示
(1)单色图像。图像中所有像素的亮度编码值用一个矩阵来表示,矩阵中某个元素的值是对应像素点亮度或者灰度的编码值,如果是黑白图像,该编码值是1位,如果是灰度图像,该编码值是8位。
(2)彩色图像。彩色图像中所有像素的颜色值用一组(一般是3个)矩阵来表示,矩阵的行数称为图像的垂直分辨率,列数称为图像的水平分辨率,矩阵中的元素是像素颜色分量的亮度值,使用整数表示,一般是8位至12位。
2、图像的属性信息
(1)图像大小,也称图像分辨率(包括垂直分辨率和水平分辨率)。
(2)位平面的数目,即矩阵的数目,也就是彩色分量的数目。
(3)颜色空间的类型,指彩色图像所使用的颜色描述方法,也叫颜色模型。常用颜色模型:RGB(红、绿、蓝)、CMYK(青、品红、黄、黑)、HSV(色彩、饱和度、亮度)、YUV(亮度、色度)等。
(4)像素深度,即像素的所有颜色分量的位数之和,它决定了不同颜色(亮度)的最大数目。
3、数字图像的压缩
(1) 数字图像压缩的必要性。
一幅图像的数据量可按下面的公式进行计算(以字节为单位):
图像数据量 = 图像水平分辨率×图像垂直分辨率×像素深度/8。
例如,分辨率0×480,像素深度24位的一幅图像的数据量为0×480×24/8 = 921600B = 900 KB。
(2)数字图像压缩的可能性。
由于数字图像中的数据相关性很强,数据的冗余度很大,因此对数字图像进行大幅度的数据压缩是完全可能的。而且,人眼的视觉有一定的局限性,即使压缩前后的图像有一定失真,只要在人眼允许的误差范围之内,也是允许的。
(3)数据压缩类型。
无损压缩:压缩以后的数据进行图像还原(也称为解压缩)时,重建的图像与原始图像完全相同。
例如,行程长度编码(Run Length Coding,RLC):11111022222225。哈夫曼(Huffman)编码:对出现概率高(低)的编短(长)码,是变长码。
有损压缩:使用压缩后的数据进行图像重建时,重建后的图像与原始图像虽有一定的误差,但不影响人们对图像含义的正确理解。如变换编码、矢量编码等。
图像压缩方法很多,不同方法适用于不同的使用,在计算机中常常是多种压缩方法的综合使用。为得到较高的数据压缩比,一般都采用有损压缩。
(4)压缩比。
图像数据压缩比 = 压缩后的图像数据量/压缩前的图像数据量。
(5)压缩编码方法优劣的评价。
评价一个压缩算法的优劣可以从以下三个方面衡量:压缩倍数的大小、重建图像的质量(有损压缩时)、压缩算法的复杂程度。
(6)数字图像压缩编码国际标准。
JPEG标准:ISO和IEC两个国际机构联合组成了一个专家组(Joint Photographic Experts Group , JPEG),制定了一个静止图像数据压缩编码的国际标准,称为JPEG标准。JPEG标准的特点是:适用范围广;能处理各种连续色调的彩色或灰度图像;算法复杂度适中;既可用硬件实现,也可用软件实现;图像的压缩比可控制(压缩比越低,图像质量越好,压缩比越高,图像质量越差)。
JPEG 2000标准:适用于各种不同类型(黑白、灰度、彩色等)和不同特性(自然、医学、遥感、合成)的图像,可用于不同的使用模式(实时传输、检索、存档等)。采用了小波分析等先进算法,提供了更好的图像质量,更低的码率,更适合在WWW网上传输等,它兼容JPEG。
4、常用图像文件的格式
(1)BMP(BitMaP-file)图像:微软公司在Windows操作系统下使用的一种标准图像文件格式,一个文件存放一幅图像,可以使用行程长度编码(RLC)进行无损压缩,也可不压缩。不压缩的BMP文件是一种通用的图像文件格式,几乎所有Windows使用软件都能支持。
(2)TIFF(Tagged Image File Format)图像文件格式:用于扫描仪和桌面出版,能支持多种压缩方法和多种不同类型的图像,有许多图像图形使用软件支持这种文件格式。由文件头、文件目录、目录条目三个部分组成。
(3)GIF(Graphics Interchange Format):互联网上广泛使用的一种图像文件格式,它的颜色数目较少(不超过256色),文件特别小,适合网络传输。由于颜色数目有限,GIF适用于插图、剪贴画等色彩数目不多的使用场合。GIF格式能够支持透明背景,具有在屏幕上渐进显示的功能。尤为突出的是,它可以将许多张图像保存在同一个文件中,显示时按预先规定的时间间隔逐一进行显示,从而形成动画的效果,因而在网页制作中大
量使用。由CompuServe公司1987年开发,基于Lempel - Ziv Walch(LZW)压缩算法、使用特殊码、可变长度。
例1:(判断)GIF格式图像在因特网上广泛使用的原因是因为它是一种真彩色图像。
参:错
分析:GIF图像确实是目前因特网上广泛使用的一种图像文件,它之所以适合在网络上使用,原因是因为它的颜色数目较少(不超过256色),每个像素仅需8个二进位表示,所以数据量特别小,适合网络传输。再加上GIF格式图像能支持透明背景、可在屏幕上渐进显示、具有动画效果等优点,因而网页中的插图大多数都使用GIF图像。而所谓的真彩色图像,一般指的是像素深度超过24位、可表示颜色数目在1600万种以上的数字图像,GIF文件格式不能支持这种图像。因此,本题的论断不正确。
例2:(单选)下列关于数字图像的叙述中,错误的是 。
A. 图像大小也称为图像的分辨率
B. 像素是构成图像的基本单位
C. 尺寸大的彩色图片数字化后,其分辨率必定大于尺寸小的图片的分辨率
D. 彩色图像具有多个位平面
参:C
分析:计算机中的图像通常指的是取样图像,在图像获取的数字化(取样)过程中,每个取样点对应着一个像素,像素是构成图像的基本单位。由于此类图像是使用像素进行表示的,所以也称其为点阵图像或位图图像。图像分辨率指该图像像素阵列的列数和行数,它直接影响着图像在屏幕上显示(或打印机打印)出来的尺
寸大小,所以人们也把图像的分辨率称为图像大小。在把彩色图片数字化时(例如使用扫描仪),如果使用的扫描分辨率(扫描分辨率用每英寸多少点即dpi表示)不变,那么尺寸大的彩色图片数字化后,其图像分辨率比尺寸小的图片的分辨率高。但是,扫描仪的扫描分辨率在每次使用时是可以重新设置的,如果扫描大尺寸彩色图片时设置的扫描分辨率低,扫描小尺寸彩色图片时设置的分辨率高,那么输入计算机中的两幅图像的图像分辨率就难说谁高谁低了。这里需要注意的是,扫描分辨率与图像分辨率是两个既有区别又有联系的概念。彩色图像的像素包含多个(一般是3个)分量,每个分量与颜色空间中的一种基色相对应,彩色图像中所有像素的同一个分量构成一个位平面,因此彩色图像的位平面有多个。例如,如果使用RGB颜色空间的话,彩色图像就包含R、G、B三个位平面。综上所述,本题的选项C是错误的。
例3:(单选)以下列出的数字图像的文件格式中,能够在网页上发布并可具有动画效果的文件格式是( )。
A. BMP B. GIF C. JPEG D. TIF
参:B
分析:参考《教程》5.2.2节的介绍,GIF图像文件可以将多张图像的数据保存在同一个文件中,并规定这些图像的显示顺序和显示间隔时间。在显示GIF图像时,软件将按照预先规定的顺序和时间间隔将其中的多幅图像逐一进行显示,从而形成动画效果。题目中给出的其他三种图像文件(BMP、JPEG和TIF)均无此功能。所以,本题的正确选项是B。
例4:(多选)下面关于图像压缩编码的叙述中,错误的是( )。
A. 图像压缩编码的目的是为了节省存储容量和减少在网络上的传输时间
B.图像数据压缩都是有损的,重建的图像与原始图像不会完全相同
C.大多数图像文件都对图像进行了压缩编码
D. JPEG是微软公司使用的一种图像文件格式
参:BD
分析:数字图像的数据量一般都很大,如分辨率为1024×768的1600万色的未经压缩的图像,数据量大约2.25 MB,无论是存储还是传输这都是不小的负担。若能将数据减少到原来的几分之一或者几十分之一,则存储成本和传输成本均可成比例地下降。因此,计算机中大多数图像获取设备和图像处理软件所生成的图像文件都对图像数据进行了压缩编码。图像数据的压缩分为无损压缩和有损压缩两种类型。前者利用数字图像中存在的数据冗余,后者还利用了人眼视觉的局限性,即使压缩后图像有一些失真,只要在人眼无法察觉的误差范围之内,很多使用场合也是允许的。图像文件格式有多种,JPEG是ISO和IEC两个国际机构联合制定的静止图像数据压缩编码的一个国际标准,相应的文件格式为.jpg,微软公司的图像文件格式是.bmp。综上所述,选项B和D中的叙述是不正确的。
5.2.4 数字图像处理与使用
1、数字图像与数字图像处理的目的
(1)数字图像处理:使用计算机对来自照相机、摄像机、传真机、扫描仪、医用CT机、X光机等的图像,进行去噪、增强、复原、分割、提取特征、压缩、存储、检索等操作处理。
(2)对图像进行处理的主要目的:提高图像的视感质量、图像复原与重建、图像分析、图像的存储、管理、检索,以及图像内容与知识产权的保护等。
(3)数字图像处理的常见操作:使用计算机对数字图像进行去噪、增强、复原、分割、提取特征、压缩、存储、检索等处理。
2、常见数字图像处理软件
数字图像处理软件与使用领域密切相关,通常具有很强的专业性,如遥感图像处理软件、医学图像处理软件等。
使用较多的是面向办公、出版与信息发布的图像处理软件,也称为图像修饰(Image Retouching)或图像编辑软件,支持多种不同的图像文件格式,提供多种图像编辑处理功能,可制作出生动形象的图像。如美国 Adobe公司的PhotoShop,集图像扫描、图像编辑、绘图、图像合成及图像输出等多种功能于一体,是一个流行的图像处理工具。
其他常用的数字图像处理软件还包括Microsoft公司的Paint(画笔)、Microsoft公司的Imaging for Windows、Microsoft公司的Photo Editor、Ulead System公司的Photolmpact、ACD System公司的ACDSee 32、Corel Systems公司的Photo Paint、Aldus公司的PhotoStyler等。
3、数字图像的使用
数字图像的使用领域很广阔,主要包括:图像通信、遥感、医疗诊断、工业生产中的使用、机器人视觉、军事、、档案管理等方面。
5.2.5 计算机合成图像(图形)
1、景物形状的计算机表示
(1)景物的模型(Model):景物在计算机内的描述。
(2)景物的建模(Modeling):人们进行景物描述的过程。
(3)绘制(Rendering):也称图像合成(Image Synthesis),根据景物的模型生成图像的过程,所产生的字图像称为计算机合成图像。
(4)计算机图形学(Computer Graphics):研究如何使用计算机描述景物并生成其图像的原理、方法与技术。
(5)几何模型:景物建模方法与景物类型有关。普通工业产品(如电视机、电话机、汽车、飞机等),使用基本的几何元素(如点、线、面、体等)及表面材料的性质等进行描述所建立的模型。按照所使用的几何元素类型,几何模型可以分为:线框模型、曲面模型、实体模型。几何模型主要使用在工业产品的计算机辅助设计/制造中。
(6)过程模型/算法模型:根据景物的生成规律,并使用相应的算法来描述其规律所建立的模型。
2、计算机合成数字图像的优点及使用
(1)计算机合成图像的优点:使用计算机合成图像既能生成实际存在的具体景物的图像,还能生成假想或抽象景物的图像。能生成静止图像,还能生成各种运动、变化的动态图像。
(2)计算机合成图像的使用:计算机辅助设计和辅助制造(CAD/CAM);利用计算机生成各种地形图、交通图、天气图、海洋图、石油开采图等;作战指挥和军事训练;计算机动画和计算机艺术;其他,如电子出版、数据处理、工业监控、辅助教学(CAI)、软件工程等。
3、矢量绘图软件
(1)所谓矢量图形是指计算机合成图像。矢量绘图软件是指制作矢量图形的软件,如, AutoCAD、 MAPlnfo、ARClnfo等。
(2)2D的矢量绘图软件有:Corel公司的CoreIDraw;Adobe公司的Illustrator;Macromedia公司的 FreeHand;微软公司的Microsoft Visio;微软公司Office办公套件中的Word和PowerPoint。
(3)国际标准的绘图语言(编程语言):二维图形的国际标准是GKS;三维图形的国际标准是 GKS-3D、
PHIGS;工业标准Open GL;公司标准如微软公司的Direct-3D。
(4)图形元文件标准(数据形式):国际标准CGM和STEP;Autodesk公司的DXF;Microsoft公司的WMF。
例1:(多选)下列关于数字图像技术和计算机图形学的描述,正确的是( )。
A. 黑白图像(又称灰度图像)的每个取样点只有一个亮度值
B.计算机图形学主要研究使用计算机描述景物并生成其图像的原理、方法和技术
C.利用扫描仪输入计算机的机械零件图属于计算机图形
D.数字图像中,GIF文件格式采用了无损压缩
参:ABD
分析:此题重点是考查学生对于图像和图形这两个概念是否能够正确地区分。简单的讲,图像是来自自然界中的真实的景物,而图形是由计算机合成的,是虚拟的。本题中由扫描仪输入到计算机中的机械零件图应该是属于图像的范畴。
例2:(填空)一架数码相机,它使用的Flash存储器容量为1GB,一次可以连续拍摄65536色的2048 × 1024的彩色相片1280张,则可以推算出该相机的图像压缩倍数是 倍。
参:5
分析:此题主要考查学生两个问题:一是图像容量的计算方法,二是压缩倍数的计算方法。压缩倍数=压缩前的数据量/压缩后的数据量。现在已知压缩后的数据量为1GB,问题就变成要计算压缩前的数据量,而压缩
前的数据量也就是所有相片的总的容量,所以压缩前的数据量=水平分辨率×垂直分辨率×色彩位数×相片张数,观察已知条件由相片的色彩数是65536可知,色彩的位数是l6(216=65536),故压缩前的总容量=2048×1024×16×1280bit=5GB,所以该相机的压缩倍数是5倍。
例3:(单选)图形也称为计算机合成图像,它是人们发明摄影技术和电影电视技术之后最重要的一种生成图像的方法。下面关于计算机图形的叙述中,错误的是( )。
A. 计算机只能生成假想或抽象景物的图像,不能生成实际景物的具有真实感的图像
B.计算机不仅能生成静止图像,而且还能生成各种运动、变化的动态图像
C.显示卡(图形加速卡)在生成图像的过程中起着重要作用,许多处理都是由显示卡完成的
D. 计算机合成图像在产品设计、绘图、广告制作等领域有着广泛的使用
参:A
分析:计算机图形学是用户使用计算机对景物的结构、形状与外貌进行描述,然后再通过绘制技术生成其图像的一种技术。由于景物的形状与外貌是用户借助计算机自行描述的,并不一定需要实物或实景,因此无论是真实的还是假想的景物,使用计算机均可进行描述。经过40余年的发展,景物的建模技术和图像的绘制技术都已取得巨大成功,许多极为复杂的形体(如飞机、汽车)和自然景物(如树木、花草、烟火、毛发、山脉)都可在计算机中进行描述,并能相当准确地或者非常逼真地绘制出它们的图像来。这些计算机制作(合成)的图像虽然是人造的而不是实地拍摄的,但其效果有时可以达到以假乱真的程度,我们称这些图像具有真实感。正因为如此,计算机合成图像在产品设计、绘图、广告制作等领域有着广泛的使用。计算机不仅能制作单幅的静止图像,还能方便地、高效率地制作可供实时演播的连续的一系列的图像,这就是计算机动画技术。计算机生成图像的过程是一个非常复杂的过程。以“绘制”为例,图像中每一个像素的颜色和亮度都要经过大量计算才能确定。这些计算目前都是由图形卡(显卡)上的专用绘图处理器来完成的,否则CPU将不堪重负。综上所述,本题选项A的叙述是错误的。
5.3.1 波形声音的获取与播放
1、声音的产生与信号的特征
(1)声音:由振动而产生,通过空气进行传播。它由许多不同频率的谐波所组成,谐波的频率范围称为声音的带宽(Bandwidth),带宽是声音的一项重要参数。
(2)多媒体技术处理的声音信号:人耳可听到的 20~20kHz的音频信号(audio),人说话的声音,其频率范围约为300~3400Hz的语音信号,全频带声音(音乐声、风雨声、汽车声等其他声音,其带宽可达到20~20kHz)。
(3)决定声音信号特征的三个参数:频率(w。)决定音调的高低;幅度(An)决定声音的强弱(音量);相位(φn)决定声音的音色。
2、数字声音概述
数字声音是模拟声音信号的二进制编码数据。数字声音特点是:数字声音是一种连续媒体,传输与播放有实时性要求,数据量大,对存储和传输的要求很高。
数字声音有两种类型:
(1)波形声音,如数字语音(取样于人说话的声音)、全频带数字声音(取样于自然界各种声音)。
(2)计算机合成声音,如合成音乐(MIDI)、合成语音。
数字声音有如下优点:
(1)以数字形式存储的声音重放性能好,复制时没有失真。
(2)数字声音的可编辑性强,易于进行效果处理。
(3)数字声音能进行数据压缩,传输时抗干扰能力强。
(4)数字声音容易与其他媒体相互结合。
(5)数字声音为自动提取“元数据”和实现基于内容的检索创造了条件。
3、模拟声音信号的数字化过程
声音信号的数字化是将模拟声音信号转换成数字编码形式,以便于计算机进行处理的过程。常用的方法是脉冲编码调制法(PCM)。
声音信号数字化的过程包括:取样、量化、编码。
(1)取样。
① 取样的定义:取样是在时间轴上对声音信号数字化。
② 奈奎斯特采样理论:如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,换句话说,只要采样频率高于输入信号最高频率的两倍,就能从采样信号重构原始信号。也就是说,采样频率不应低于声音信号最高频率的两倍。
例如,语音信号最高频率3.4kHz,采样频率一般为8kHz(8000次/秒),音乐信号最高频率20kHz,采样频率应在40kHz以上。采样标准频率一般有:8kHz、11.025 kHz、22.05kHz、44.1kHz、48kHz。
(2)量化(数据转换)。
量化的任务是在幅度轴上对声音信号数字化。量化精度(量化位数)8位、l6位。量化位数越高,可表示的声音信号动态变化范围越大,数字化后的音频信号被还原时就越接近原始声音信号(声音的保真度越好),但所需要的存贮空间也越大。
(3)编码。
编码的任务是采用一定的格式组织和记录声音数据,采用一定的算法压缩声音数据以减少存贮空间和提高传输效率。
4、波形声音的获取设备
(1)麦克风:将声波转换为电信号(模拟信号)。
(2)声卡(Sound card):在线(On-line)获取声音,并进行数字化(将模拟信号转换为数字信号)。
声卡的主要功能:
① 波形声音的获取:把模拟的声音信号转换为数字形式(话筒或线路输入、单双道)。
② 波形声音的重建与播放。
③ MIDI(Musical Instrument Digital Interface)声音的输入。
④ MIDI声音的合成与播放。
声卡的组成与工作原理:
声卡以数字信号处理器(DSP)为核心,DSP在完成数字声音的编码、解码及声音编辑操作中起着重要的作
用。它利用PCI总线与主机进行数据交换,混音器(Mixer)将不同的声音信号进行混音,并提供音量控制功能。PC机的声卡较多的已经与主板集成在一起,不再做成的插卡。
(3)数码录音笔:使用数码录音笔可离线(Off-line)获取声音,然后再通过USB接口直接将已经数字化的声音数据送入计算机中。数码录音笔的原理与上述过程基本相同,不过由于带宽的原因,它一般适合于录制语音。
5、声音的播放
波形声音的播放主要经过四个步骤:
(1)解码:解码是编码的逆向过程,是将压缩编码所得的数字信号恢复为压缩前的数据的过程。
(2)数模转换:数模转换是将数字声音信号还原为模拟信号的过程。
(3)插值处理:把时间上离散的取样值转换成在时间上连续的模拟声音信号。
(4)播放:将模拟声音信号经过处理和放大送到扬声器播放。
6、声音的播放设备
声卡输出的声音需送到音箱去放音。普通音箱接收的是重建的模拟声音信号。数字音箱可直接接收声卡输出的数字声音信号,避免信号在传输中发生畸变和受到干扰,其音响效果更加突出。
例1:(单选)声卡是获取数字声音的重要设备,在下列有关声卡的叙述中,错误的是( )。
A. 声卡既负责声音的数字化(输入),也负责声音的重建(输出)
B. 声卡既处理波形声音,也负责MIDI音乐的合成
C. 声卡中的数字信号处理器(DSP)在完成数字声音编码、解码及编辑操作中起着重要的作用
D. 因为声卡非常复杂,所以都把它们做成的PCI插卡形式
参:D
分析:声卡和麦克风、扬声器是计算机输入和输出声音必不可少的硬件设备。需要注意的是,声卡的功能是多方面的,它既负责声音的输入(数字化),也负责声音的输出(声音的重建和播放);既负责波形声音的输入输出,也负责合成声音( MIDI)的输入输出。数字信号处理器(DSP)是声卡的核心,它能协助 CPU完成波形声音的压缩编码和解码、MIDI音乐的合成和声音的编辑操作,在声音的输入/输出中起着重要的作用。虽然声卡的功能是多方面的,但它的结构并不很复杂。随着大规模集成电路技术的发展,实际的声卡产品主要包含3块集成电路:一块主音频处理芯片、一块音频混合芯片和一块放大器电路。正因为如此,越来越多的计算机的声卡已不再做成的插卡形式,而是直接集成在主板上或芯片组内,所谓的“声卡”只是一个逻辑上的概念而已。综上所述,本题的答案应选D。
例2:(单选)在数字波形声音的获取过程中,正确的处理步骤依次是( )。
A.模数转换、取样、编码 B.取样、编码、模数转换
C.取样、模数转换、编码 D. 取样、数模转换、编码
参:C
分析:声波是一种模拟信号,为了使用计算机进行处理或以数字形式进行通信,必须将它转换成数字编码的形式,其处理步骤为:(1)取样,把时间上连续的声音信号变成时间上离散的形式。(2)量化,将每个取样(样本)的值使用二进位整数来表示,一般是8位、12位或16位。量化也称为模数转换。(3)编码,进行数据压缩
并按规定格式将数据进行组织,以便计算机存储和处理。因此,本题的正确选项是C。
5.3.2 波形声音的表示与压缩编码
1、波形声音的主要参数
(1)波形声音的主要参数有:取样频率、量化位数、声道数目、使用的压缩编码方法。
(2)数码率(bit rate):指的是每秒钟的数据量,也称比特率、码率。
(3)数字声音未压缩前,其计算公式为:
波形声音的码率 = 取样频率×量化位数×声道数,
压缩编码以后的码率 = 压缩前的码率/压缩倍数。
(4)持续时间为t(S)的一段波形声音的数据量,其计算公式为:
数据量=码率×持续时间t
2、波形声音的压缩
(1)波形声音压缩的必要性。
全频带波形声音的数据量很大,如CD盘片上所存储的立体声高保真的全频带数字音乐,1小时的数据量大约是635MB。为了降低存储成本和传输通信带宽,必须要对数字波形声音进行数据压缩。
(2)波形声音压缩的可行性。
首先,声音信号中包含有大量的冗余信息,其次,人耳对于不同频率的声音信号的灵敏度是不同的,因此可以利用人的听觉感知特性减少一些声音信号的数据量。
(3)波形声音压缩算法的分类。
波形声音压缩算法可分为有损压缩和无损压缩。
有损压缩是指声音信号在压缩过程中存在数据的丢失,不能完整地还原信号的原貌。无损压缩是指在压缩过程中没有数据的丢失,能够完整地还原信号本来的面貌。一般的,压缩越多,信息丢失越多、信号还原后失真越大。一个好的声音数据压缩算法通常应做到压缩倍数高,声音失真小,算法简单,编码器/解码器的成本低。
(4)波形声音压缩编码标准。
① MPEG-1声音压缩编码是国际上第一个高保真声音数据压缩的国际标准,它分为三个层次:
层1(Layer 1):编码简单,用于数字盒式录音磁带;
层2(Layer 2):算法复杂度中等,用于数字音频广播(DAB)和VCD等;
层3(Layer3):编码复杂,用于互联网上的高质量声音的传输,如MP3音乐压缩10倍。
② MPEG-2的声音压缩编码采用与MPEG-1声音相同的编译码器,层1、层2和层3的结构也相同,但它能支持5.1声道和7.1声道的环绕立体声。
③ 杜比数字AC-3(Dolby Digital AC-3):美国杜比公司开发的多声道全频带声音编码系统,它提供的环绕立体声系统由5个全频带声道加一个超低音声道组成,6个声道的信息在制作和还原过程中全部数字化,信息损失很少,细节丰富,具有真正的立体声效果,在数字电视、DVD和家庭影院中广泛使用。
3、数字语音的压缩编码方法
语音信号特点是带宽窄(300~3400Hz),是一种特殊的波形声音。
语音信号压缩编码方法有:模型编码(语声编码)、混合编码、波形编码。
(1) 基于感觉模型的编码方法。
编码要求是重建的话音信号与原始语音信号波形基本相同,特点是码率较高(分别为 kb/s和32 kb/s),语音质量高,算法简单,易实现波形编码使用(固定电话系统,多媒体文档等)。
(2)模型编码(语声编码)。
模型编码是基于参数模型的编码方法。编码要求重建的语音昕起来与原始语音一样,但波形可以不同。编码时使用一种“声源一滤波器”模型来模拟人的发声过程,从原始的语音波形信号中使用线性预测方法提取语音生成的参数,把这些模仿原始语音信号波形的参数作为该语音的编码数据。编码的特点是码率很低,但声音质量较差,主要使用在保密通信。
(3)混合编码。
利用原始语音波形信号提取“声源—滤波器”模型中的声道参数与激励信号,并使用这种激励信号产生的波形尽可能接近于原始语音的波形。其编码特点是码率低于16 kb/s,既达到高的压缩比,又保证较好的语音质量。该编码主要使用于移动通信、IP电话。
例1:(判断)MP3是目前流行的一种数字音乐,它是采用MPEG-3标准对数字音频进行压缩而得到的。
参:错
分析:音乐是一种频率范围从20 Hz~20 kHz的全频带声音信号,为了确保比较高的音质,数字化时取样频率一般为44.lkHz或48kHz,因此数据量相当大,必须进行数据压缩。MPEG是一种用于视频(活动图像)和音频信息压缩编码的国际标准,分成MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21等5个标准(注意,没有MPEG-3),其中MPEG-1声音压缩编码标准又分为三个层次:层1较简单,用于数字盒式录音带;层2中等,使用于VCD;层3较复杂,但效果较好,适合于网络使用。这些年流行的所谓“MP3音乐”,就是采用MPEG-l层3音频编码的一种高质量数字音乐,它能以10倍左右的压缩比降低高保真数字声音的存储量,使一张普通CD光盘上可以存储大约100首歌曲。MP3是MPEG-1音频编码层3的简称,而不是MPEG-3。所以,本题的叙述是错误的。
例2:(单选)人们说话时所产生的语音信号必须数字化之后才能由计算机存储和处理。假设语音信号数字化时的取样频率为8kHz,量化精度为8位,数据压缩倍数为4倍,那么1分钟数字语音的数据量是( )。
A . 960 KB B. 480 KB C. 120 KB D. 60 KB
参:C
分析:我们说话时所生成的语音是一种单声道信号,数字化之后在没有进行数据压缩时,它的码率为8k×8×1= kbps。数据压缩4倍之后,它的码率为16 kbps。因此,1分钟数字语音的数据量为16 kbps×60/8=120 KB(12万字节)。正确的选项是C。
5.3.3 波形声音的编辑
声音编辑软件的功能有:
(1)基本编辑操作:
① 声音的剪辑(删除、移动或复制一段声音,插入空白等);
② 声音音量调节(提高或降低音量,淡入、淡出处理等);
③ 声音的反转;
④ 持续时间的压缩/拉伸:
⑤ 消除噪音;
⑥ 声音的频谱分析。
(2)声音的效果处理:包括混响、回声、延迟、频率均衡、和声效果、动态效果、升降调、颤音等。
(3)格式转换功能:对不同格式的声音文件进行相互转换。
(4)其他功能:如分轨录音、配音、刻录CD唱片等。
5.3.4 计算机合成声音
1、计算机合成语音技术
(1)语音合成:根据语言学和自然语言理解的知识,使计算机模仿人的发声,自动生成语音的过程。目前主要是按照文本(书面语言)进行语音合成,这个过程称为文语转换(Text-To-Speech,简称 TTS)。
(2)文语转换过程:文本分析、韵律分析、语音生成。
(3)语音库:语音库中存储了大量预先录制的语音基元(单音、词组、短语或句子)波形,合成时读取语音基元的波形,将这些波形进行拼接和韵律修饰,然后输出连续语音流。
(4)对计算机合成的语音希望能达到的要求:发音清晰可懂,语气语调自然,说话人可选择,语速可变化等。
(5)计算机合成语音的使用:股票交易、航班动态查询、电话报税等业务、有声E-mail服务、CAI课件或游戏解说词的自动配音、文稿校对、语言学习、语音秘书、自动报警、残疾人服务等。
2、计算机合成音乐技术
计算机合成音乐技术借助“电子合成器”产生具有某种乐器音色的声音。例如,电子琴中的合成器可以演奏出钢琴音色的声音。电子合成器的作用是将数字表示的音符转换为模拟声音波形,再送到喇叭发声。
3、计算机合成音乐表示的国际标准—MIDI
MIDI(Musical Instrument Digital Interface,乐器数字接口)是计算机中描述乐谱的一种标准描述语言,规定了乐谱的数字表示方法(包括音符、定时、乐器等)和演奏控制器、音源、计算机等相互连接时的通信规程,是计算机合成音乐的交换标准,也是商业音乐作品发行的标准。
(1)MIDI基本概念。
① MIDI消息是乐谱的一种记录格式,相当于乐谱语言。每个MIDI消息描述一个音乐事件(如演奏的音符、开始演奏时间、结束演奏时间、音符的音色、演奏速度等)。
② MIDI文件是保存演奏一首乐曲所对应的全部MIDI消息的文件(文件扩展名为MID)。MIDI文件保存数字式电子乐器的乐谱指令(包括:按键的名称、力度、持续时间等信息)。当需要播放这首乐曲时,根据MIDI文件记录的乐谱指令,通过音乐合成器生成声音波形,经放大后由扬声器发出声音。MIDI文件在 Windows系统中可以使用媒体播放器播放。
(2)MIDI音乐的制作与播放。
媒体播放器软件从MID文件中读出MIDI消息发送给声卡上的音乐合成器,由其解释并执行MIDI消息所规定的操作,合成出各种音色的音符,通过扬声器播放出乐曲来。
(3)MIDI音乐合成器功能。
MIDI音乐合声器可以模仿许多乐器同时生成各种不同音色音符的声音信号(音源)。
(4)MIDI音乐合成器的两种类型。
① 调频合成器(早期声卡采用)是一种受控的电子振荡器(波形发生器),能模拟生成许多乐器演奏的音符。特点是音色单调,效果较差。
② 波表合成器预先将每种乐器演奏的各个音符的声音波形数字化并存放在声卡的ROM中(波表)或主机RAM中(软波表),播放MIDI乐曲时根据MIDI消息中的乐器类型、音符等参数访问ROM,取出相应的波形数据,将其修饰成所要求的音强和时长,然后播放出来。特点是音色优美,效果好。
(5)MIDI音乐的特点。
① MIDI优点:数据量很少(比CD - DA少3个数量级,比MP3少2个数量级),易于编辑修改,可以与波形声音同时播放。
② MIDI缺点:音质方面较差,无法合成出所有各种不同的声音(例如,语音)。
例1:(单选)计算机中用于描述乐谱并由声卡合成出乐曲的一种专用语言,称为( )。
A. MP3 B. JPEG2000 C. MIIDI D. XML
参:C
分析:计算机具有合成声音的能力,既能合成语音,也能合成乐曲。为了合成乐曲,计算机至少需要具备两个条件:一是它应能描述音乐乐曲,二是要有专门的软件和硬件装置,能解释这种描述并合成出各种音色的音符,然后通过扬声器播放出乐曲来。前者就是一种称为“MIDI”的专用语言,后者是媒体播放器软件和声卡上的音源(也称为音乐合成器)。MP3虽然称为数字音乐,但它是采用MPEG-1层3进行编码的数字波形声音,是获取的真实声音(不一定是乐曲,可以是其他声音),而不是计算机合成的声音,更不是音乐的描述语言。JPEG2000则是静止图像压缩编码的一种国际标准,XML(可扩展标记语言)是一种网页描述语言,它描述的是网页(文字)而不是音乐。所以,本题的正确选项是C。
例2:(多选)声卡的功能之一是将波形声音进行数字化,数字波形声音的质量与下列( )参数有关。
A. 量化位数 B.取样频率 C.声卡接口 D.合成器类型
参:AB
分析:波形声音数字化的过程分成取样、量化和编码三个步骤。在取样阶段,为了不产生失真,按照取样定理,取样频率不应低于声音信号最高频率的2倍。量化的作用是将样本值用二进制整数近似表示,位数越多,精度越高,声音的保真度越好,位数越少,噪声越大,声音的保真度就越差。声卡与主机的接口一般只影响存储器与声卡之间(声音)数据的传输速度,目前声卡接口多半采用PCI接口,传输速度有足够保证,对声音质量不会有影响。合成器指的是MIDI音乐合成器,它有调频合成器和波表合成器两种,不同类型的合成器只影响合成的MIDI音乐的质量,与波形声音质量没有关系。综上所述,本题的正确选项是A和B。
5.4.1 数字视频基础
1、基本概念
(1)视频(Video):指的是内容随时间变化的一个图像序列,也称为活动图像(Motion Picture)。常见的视频有电视和计算机动画。
(2)电视:能传输和再现真实世界的图像与声音,是当代最有影响力的信息传播工具。
(3)电视画面:一种光栅扫描图像,一般采用隔行扫描方式,即图像由奇数场和偶数场两部分组成,合起来组成一帧图像。
(4)数字视频:数字化的电视信号称为数字视频。
(5)计算机动画:是计算机制作的图像序列,是一种计算机合成的视频。
2、彩色电视信号的三种制式
(1)彩色电视信号有PAL(德国、英国、朝鲜、中国等采用)、NTSC(美国、加拿大、日本等国采用)、SECAM(法国、前苏联、东欧等国采用)三种制式。
(2)PAL制式彩色电视信号的特性。
帧频25帧/秒,场频50场/秒,图像的垂直分辨率(一帧图像中的扫描线总数)625线,可见部分575线,不可见的回扫线50线,电视信号行频为625×25 = 15.625 kHz。彩色信号在远距离传输时用亮度信号Y和两个色度信号U、V来表示。优点是能与黑白电视接收机保持兼容,Y分量由黑白电视机直接显示而无需做进一步处理,可利用人眼对两个色度信号不太灵敏的视觉特性来节省电视信号的带宽和发射功率。
彩色信号的YUV表示与RGB表示的转换:
亮度分量Y = 0.3 × R + 0.59 × G + 0.11 × B;
色度分量U = 0.493 × (B - Y);
色度分量V = 0.877 × (R - Y)。
3、数字视频的类型及优点:
(1)数字视频有两种类型。
① 视像(如摄像机)信号中的视像信号(运动图像)和伴音信号经过数字化后得到的数字视频。
② 计算机合成视频(计算机动画)。
(2)数字视频与模拟视频相比的优点。
① 复制和传输时不会造成质量下降;
② 容易进行编辑修改;
③ 有利于传输(抗干扰能力强,易于加密); ④ 可节省频率资源。
例1:(单选)彩色图像所使用的颜色描述方法称为颜色模型。PAL制式的电视系统在传输图像时所使用的颜色模型为( )。 A.YUV B.HSB C.CMY D.RGB
参:A
分析:摄像机所拍摄的彩色图像原本是用RGB三基色表示的,为了进行远距离传输,PAL制式彩色电视的RGB三基色必须转换为Y(亮度信号)和U、V(两个色度信号)来表示。当彩色电视信号到达用户的电视接收机之后,再把它从YUV表示恢复成为RGB,然后在屏幕上显示。采用YUV颜色空间传输彩色电视信号有两个优点:(1)保持与黑白电视接收机兼容,黑白电视接收机只需要使用Y分量就可直接进行图像显示;(2)可利用人眼对色度信号不太灵敏的视觉特性来节省电视信号的带宽和发射功率。本题中的HSB(色彩、饱和度、亮度)颜色空间比较符合人们对颜色的直观感觉,在图像处理软件中常用于颜色的选择和编辑。CMY颜色模型使用的三种基色分别是青(C)、品红(M)和黄(Y),其视觉效果等于从白色光中分别减去红(R)、绿(G)、蓝(B)三种颜色,
因此称为减色模型。它适用于彩色印刷、印染和彩色打印机,因为布或纸上的颜料是通过光线反射的原理再现颜色的。综上所述,本题的正确选项是A。
例2:(单选)PAL制式的彩色电视信号在远距离传输时,使用YUV颜色模型,其中Y是一种( )信号。
A.色度 B.亮度 C.饱和度 D.对比度
参:B
分析:常用颜色模型:RGB(红、绿、蓝)、CMYK(青、品红、黄、黑)、HSV(色彩、饱和度、亮度)、YUV(亮度、色差)。
5.4.2 数字视频的获取与播放
1、视频信号的数字化
视频信号的数字化是以一帧帧画面为单位进行,对YUV三路彩色图像信号分别取样、量化和编码。由于采用YUV彩色空间,人眼对颜色信号的敏感度远不如对亮度信号灵敏,所以色度信号的取样频率可以比亮度信号的取样频率低,以减少数字视频的数据量。
2、常用的色度信号取样格式
(1)4:4:4格式(色度信号的取样与亮度信号完全一样);
(2)4:2:2格式(每条扫描线上色度信号的取样只是亮度信号的一半);
(3)4:2:0格式(在水平和垂直方向上色度信号的取样都只是亮度信号的一半)。
3、视频卡与视频获取设备
(1)视频采集卡:简称视频卡,PC机中用于视频信号数字化的插卡。它的功能是将模拟视频信号(及伴音信号)数字化并存储在硬盘中。数字化后的视频图像,经彩色空间转换(从YUV转换为RGB),与计算机图形显示卡产生的图像叠加,显示在屏幕上。获取数字视频的同时使用数字信号处理器(DSP)进行音频和视频数据的压缩编码。
(2)数字摄像头:在线获取数字视频的设备。它通过光学镜头采集图像,然后直接将图像转换成数字信号并输入到PC机,不需视频采集卡进行模数转换。最高分辨率:0×80,一般为352×288,速度为30 帧/s以下,镜头视角为45~60度,光传感器大多采用CCD,部分采用CMOS,后者分辨率不能很高,但功耗低、速度快,接口为USB接口、IEEE1394(火线)接口。
(3)数字摄像机:一种离线的数字视频获取设备。它的原理与数码相机类似,功能更多,采用M-JPEG或MPEG-2压缩编码,常见记录介质是磁带、硬盘,主要接口有USB、IEEE1394。
例1:(判断)在PC机上安装数字摄像头的目的,是通过镜头连续地拍摄景物的图像并转换成数字视频信号输入到计算机中。( )
参:对
分析:数字摄像头是一种在线获取数字视频的设备,它通过光学镜头采集图像,然后直接将图像转换成数字视频并输入到PC机中。数字摄像头的接口一般采用USB接口,有些采用高速的IEEE1394(火线)接口。它的优点是体积小、功耗低、价格便宜、使用方便。配置了数字摄像头之后,在相关软件的支持下用户就可以开展可视电话、视频会议等使用。因此,本题的叙述是正确的。
5.4.3 数字视频的压缩编码
1、数字视频压缩的必要性
数字视频的数据量很大,1分钟CCIR601数字视频的数据量约为1G字节。
2、数字视频压缩的可行性
视频信息中各画面内部信息相关性很强,相邻画面的内容具有高度的连贯以及人眼的视觉特性,所以视频图像可以大幅度地压缩。
3、视频压缩编码的标准及其使用
(1)MPEG-1:一种运动图像及其伴音的编码标准。码率:1.2Mb/s~1.5Mb/s;图像质量:200多线,相当于一般家用录像机;使用:数码相机和数字摄像机、VCD。
(2)MPEG-2:针对数字电视(DTV)的使用要求。码率:1.5 Mb/s~60 Mh/s甚至更高;特点:通用性,向下兼容MPEG-1;使用:数字卫星电视、高清晰度电视(HDTV)广播、数字视盘DVD。
(3)MPEG-4:支持各种网络条件下(包括移动通信)的交互式多媒体使用,侧重于对多媒体信息内容的访问,支持计算机合成视频和音频,功能强,使用前景广。
(4)H.261:数字视频编码标准,由国际电联(ITU)前身CCITT制定,适用于在ISDN网上以p×kbps(p=1,…,30)的速率开展视频会议和可视电话业务。
例1:(单选)多媒体计算机系统中要表示、传输和处理大量的声音、图像甚至影视视频信息,其数据量之大是非常惊人的,因此必须研究高效的( )技术。
① 流媒体 ② 数据压缩编码 ③ 数据压缩解码 ④ 图像融合
A.①和② B.②和③ C.②和④ D.③和④
参:B
分析:数字视频的数据量是非常大的,如1分钟的CCIR601数字视频,其数据量约为1GB,这样大的数据量无论是存储、传输,还是处理,都是极大的负担。解决这个问题的出路就是对数字视频信息进行数据压缩,由此,必须研究高效的数据压缩编码和数据压缩解码技术。
5.4.4 数字视频的编辑
1、非线性编辑系统
摆脱了磁带顺序存取束缚的计算机视频编辑系统,节目制作是在大容量随机存取的磁盘存储器上进行,效率得到了极大的提高。
该系统由计算机主机、视(音)频卡、SCSI硬盘、视频编辑软件、控制装置组成。把电视节目素材存入硬盘中,根据需要对不同长短、不同顺序的素材进行剪辑,同时配上字幕、特技和各种动画,再进行配音、配乐,最终制作成高质量的电视节目。其核心软件是数字视频编辑器,如Adobe Premiere。
2、虚拟演播室
利用计算机生成运动或静止的三维场景,与现场拍摄的视频图像进行实时合成。在现场直播时,综合生成的三维场景可不断变化更换,并根据演播室摄像机运动的位置显示出正确的透视图,使合成的视频图像取得真实的视觉效果。主要由摄像机、摄像机位置参数分析与控制、图形工作站、背景素材库和图像合成设备等组成。
5.4.5 计算机合成数字视频
1、计算机动画的概念
计算机动画是采用计算机生成一系列可供实时演播的连续画面的一种技术。
2、计算机动画的创作
计算机动画的基础是计算机图形学,创作软件包括二维动画软件,如Animator Pro、三维动画软件,如3D StudioMAX等。创作过程是首先在计算机中生成场景和形体的模型,然后设置它们的运动,最后生成图像并转换为视频信号输出。
三维动画的制作较为复杂,首先按照动画的脚本对景物进行造型,确定景物的颜色,设置灯光和布置摄像机的位置,然后描述和设置动画的运动要求,图像绘制,最后输出动画结果。
5.4.6 数字视频的使用
1、MPEG-1与VCD
(1)CD:小型光盘,最早使用于数字音响领域,代表产品是CD唱片。每张CD唱片的存储容量是650MB左右,可存放1小时的立体声高保真音乐。
(2)Video CD(简称VCD):1994年由JVC、Philips等公司联合定义的一种以数字技术在CD光盘上存储视频和音频信息的规范。规定了将MPEG-1音频/视频数据记录在CD光盘上的文件系统的标准,使一张普通的CD光盘可记录约60分钟的音视频数据,图像质量达到家用录放像机的水平,可播放立体声。VCD播放机体积小,价格便宜,音视频质量较好。
2、MPEG-2与DVD
(1)DVD:数字多用途光盘。有多种规格,用途广泛。其中的DVD-Video(日常简称为DVD)就是一种类似于LD或Video CD的家用影碟。
(2)DVD影碟与VCD相比。
存储容量大得多。CD光盘容量650MB,存放74分钟VHS质量(352×240)的视频图像;单面单层DVD容量4.7GB,以平均码率4.69Mb/s播放视频图像,能存放133分钟的接近于广播级图像质量(720×480)的整部电影。DVD采用MPEG-2压缩编码,画面品质比VCD高。
(3)DVD-Video的特点和功能。
提供32种文字或卡拉OK字幕,最多可录放8种语言的声音;具有多结局、多角度(从9个角度选择观看图像)、变焦和家长锁定控制等功能;画面的长宽比有三种方式:全景扫描、4:3普通屏幕、16:9宽屏幕方式;伴音具有5.1声道(左、右、中、左环绕、右环绕和超重低音),实现三维环绕立体音响效果。
3、数字电视
(1)数字电视:将电视信号进行数字化,然后以数字形式进行编辑、制作、传输、接收和播放。
(2)数字电视的特点。
频道利用率高、图像清晰度好;可以开展交互式数据业务,包括电视购物、电视银行、电视商务、电视通信、电视游戏、实时点播电视、电视网上游览、观众参与的电视竞赛等。
(3)数字电视接收机(简称DTV接收机)的三种形式。
数字电视接收机——传统模拟电视接收机的换代产品;传统模拟电视机外加一个数字机顶盒;可以接收数字电视的PC机。
4、点播电视(VOD)
(1)VOD(Video On Demand):视频点播(也称为点播电视)技术的简称,即用户可以根据自己的需要收看电视节目。
(2)视频点播系统分类。
TVOD(True VOD):用户提出要求即可及时从VOD系统得到服务,为每个用户提供单独连接,每个连接占用一定的网络带宽。
NVOD(Near VOD):准视频点播,系统每隔一段时间(例如10分钟)在不同的频道上播放同一个节目,用户可选择收看。其特点是:播放切换;缺点:不能为用户及时提供点播服务功能;优点:减少用户连接数目,节省网络带宽与费用,降低服务器性能要求。
例1:(单选)数字视频信息的数据量相当大,对存储和传输都是极大的负担,为此必须进行压缩编码。目前DVD光盘上存储的数字视频采用的压缩编码标准是( )。
A. MPEG-1 B. MPEG-2 C. MPEG-4 D. MPEG-7
参:B
分析:目前存储和发行数字音像作品的光盘产品有两种:VCD和DVD。由于数字音、视频的数据量很大,因而必须采用压缩编码技术。VCD采用的是国际标准MPEG-1,而DVD盘片的存储容量比VCD盘片大得多,因此DVD可以选用比MPEG-1码率更高、图像质量(分辨率)更好的MPEG-2标准。MPEG-4是数字音、视频压缩编码的最新国际标准,在交互式多媒体使用中采用。MPEG-7是关于数字音、视频内容描述的一个国际标准,用于音、视频信息的检索。因此,本题的正确选项是B。
例2:(单选)容量为4.7GB的DVD光盘片可以持续播放2小时的影视节目,由此可推算出使用MPEG-2对视频及其伴音进行压缩编码后,每秒钟音频和视频数据合在一起的码率大约是( )。
A. 5.2Mbps B. 650 kbps C. 10.4Mbps D. 2.6 Mbps
参:A
分析:光盘上的数据是一位一位地从光盘上串行读出的,由于4.7 GB(注:按商家标注习惯,这里的4.7 GB计作4700 MB)的音视频数据可连续读出播放2小时(7200s),因此它的码率是:码率=(4.7×1000×8) /7200 (Mbps)
5.4.7 流媒体
1、流媒体的定义
所谓流媒体是指采用流式传输的方式在Internet播放的媒体格式。流媒体又叫流式媒体,它是指商家用一个视频传送服务器把节目当成数据包发出,传送到网络上。用户通过解压设备对这些数据进行解压后,节目就会像发送前那样显示出来。
流媒体实际指的是一种新的媒体传送方式,而非一种新的媒体。流媒体技术全面使用后,人们在网上聊天可直接语音对话;如果想彼此看见对方的容貌、表情,只要双方各有一个摄像头就可以了;在网上看到感兴趣的商品,点击以后,讲解员和商品的影像就会跳出来;更有真实感的影像新闻也会出现。
2、流媒体技术原理
流式传输的实现需要缓存。因为Internet以包传输为基础进行断续的异步传输,对一个实时A/V源或存储的A/V文件,在传输中它们要被分解为许多包,由于网络是动态变化的,各个包选择的路由可能不尽相同,故到达客户端的时间延迟也就不等,甚至先发的数据包还有可能后到。为此,使用缓存系统来弥补延迟和抖动的影响,并保证数据包的顺序正确,从而使媒体数据能连续输出,而不会因为网络暂时拥塞使播放出现停顿。流式传输的实现需要合适的传输协议。由于TCP需要较多的开销,故不太适合传输实时数据。在流式传输的实现方案中,一般采用HTTP/TCP来传输控制信息,而用RTP/UDP来传输实时声音数据。
流式传输的过程一般包括:
(1)用户选择某一流媒体服务后,Web浏览器与Web服务器之间使用HTTP/TCP交换控制信息,以便
把需要传输的实时数据从原始信息中检索出来。
(2)客户机上的Web浏览器启动音视频客户端程序,使用HTTP从Web服务器检索相关参数对音视频客户端程序初始化。这些参数可能包括目录信息、A/V数据的编码类型或与A/V检索相关的服务器地址。
(3)音视频客户端程序及音视频服务器运行实时流控制协议(RTSP),以交换音视频传输所需的控制信息。RTSP提供了操纵播放、快进、快倒、暂停及录制等命令的方法。(4) 音视频服务器使用RTP/UDP协议将A/V数据传输给A/V客户程序,一旦A/V数据抵达客户端,A/V客户程序即可播放输出。
3、常用的流媒体格式
目前的流媒体格式有很多如:RA、RM、SWF、ASF、WMV、WMA、AVI、MPEG、MPG、DAT、MOV等,不同格式的文件需要不同的播放软件来播放。常见的播放软件有微软公司的Media Player、ReaINetwork公司的RealPlayer、苹果公司的Quick time和Micromedia公司的Flash。
例1:(多选)Windows操作系统附带的“媒体播放器”软件具有声音和视频的播放功能。该软件可以播放的数字视频文件类型是( )。
A. avi B. mp2 C. mpg D. mp3
参:ABC
分析:Windows操作系统附带的媒体播放器软件(Windows Media Player)是一种通用的数字音频和视频的播放软件。所谓“播放”,就是把压缩编码形式的数字音频、视频进行解码,然后转换成可听和可见的形式从计算机输出;所谓“通用”指的是它能播放多种不同格式的音频文件和视频文件。以视频为例,从该软件可以打开的文件类型中可以看出,它能播放的视频文件格式有两大类:Windows视频文件(.avi 和.wmv)及MPEG电影文件(.mpeg, .mpg, .mlv, .mp2, .mpa, .mpe)。本题4个选项中,前3个选项都是媒体播放器可播放的视频文件类型,选项D是使用MPEG -1层3压缩编码的全频带声音,虽然可以进行播放,但它不是视频
文件。所以,本题的答案是ABC。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- jqkq.cn 版权所有 赣ICP备2024042794号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务