音视频基础_罗索

TAG:

一基础篇
1.1 图形、图像和视频
图形（graphic）：和图像与视频不同，有一种说法是图形就是自然界的客观世界不存在的图案。对于计算机中的图形研究，有专门的计算机图形学，主要的研究对象是点、线、面等抽象事物。目前所谓的计算机显卡3d技术支持，主要就是图形技术相关的范畴。关于图形方面的开发，好象opengl是其中比较有名的3d图形库。

图像（image）：和图形相反，图像可以定位为自然界中客观存在的图案。图像处理和我们有关系的大致是图像滤波处理和图像压缩。目前用得最多的静止图像压缩算法就是jpeg了，大家应该都很熟悉。而对图像的其他处理，一般称之为对图像进行滤波，图像处理方面，photoshop软件很多人应该都很熟悉，它图像处理的功能十分强大。在视频行业，主要是关注消隔行滤波器、去除摄像头白噪声滤波器、去除块效应（deblock）滤波器等。

视频（video）：视频我的理解就是连续的图像，被称为视频。对视频图像的处理，核心是压缩，其他的就是采集、传输、显示和录像了。视频图像如果不压缩的话，传输和录像的成本都太高了。

1.2 视频的采集、压缩、传输、解码显示和存储
视频采集最重要的设备就是摄像头了，它将自然界中的客观场景转化为模拟的电信号输出。如果是数字视频应用系统，还需要专门的设备或者器件完成图像信号的模拟到数字转换，这也是摄像头很难直接接入pc机的原因。早期的接入方式是通过pc上用户自己配的采集卡来完成，这种方式现在也有，现在有专门通过usb接口接入pc机的usb摄像头，它是在摄像头内完成了模拟到数字的转换，输出数字信号到usb接口。
视频的压缩是视频处理的核心，按照是否实时性可以分为非实时压缩和实时压缩。实时性与否，区别其实很大，一般来说，制作dvd等影片可以算作非实时性压缩，此时，算法的选择应该是要提高压缩算法效率，而不是性能，因为，即使一天完成一部影片的压缩的话，大多数时候，问题可能也不大。而对于类似网上直播这样的应用，则属于实时性压缩应用了，此时在算法选择上，算法的性能可能是第一位的。目前看，实时性压缩的应用更广泛些。关于视频压缩部分，详细的介绍我们放在后面的章节进行介绍。
视频的传输分为两种，一种是模拟视频的传输，也就是摄像头电信号进行远距离传输，这种主要是在传统的视频监控系统中应用，它的成本比较高，传输距离也有限制，而且随着距离的增大，会出现信号衰减和信道噪声等问题；另一种传输是和互联网技术结合起来，先把数字视频信号压缩后得到码流数据，然后通过网络传输到远端。随着互联网的高速发展，后一种应用方式越来越普遍，最早期应该算是视频会议系统，现在的应用就更多了，最新的比如手机上网观看视频等。其实，抽象看，互联网它其实就是一个信息平台，而在这个信息平台上，传输的信息相当大比例就是多媒体数据。可以想象，今后随着互联网带宽的不断提高，视频的应用将越来越广。
对于互联网传输过来的视频信息，首先是要进行解码，然后才是显示。解码的芯片有一定的性能要求，比编码器低些，但是毕竟是视频数据处理，通用的芯片（不支持 mmx等多媒体指令）可能会比较吃力。显示设备主要有电视、监视器和显示器，他们的信号接口是不一样的，电视监视器是模拟的电信号，显示器的输入应该是数字信号。另外多说一句，现在的显卡似乎普遍支持电视输出。

1.3 视频相关行业介绍
以视频技术为基础，结合其他领域的技术突破，满足了人们各种各样的需求，形成了很多视频相关的行业。这些行业之中，我们来了解一下如下四个方向。
1.3.1 多媒体消费类应用
多媒体消费类应用在技术上主要是视频压缩技术和媒体存储技术的结合，主要的产品形式是vcd（早期）和dvd，偏向消费类的家庭应用。这几年随着dvd光驱的普及，在pc上观看dvd也逐步流行起来。该行业的视频压缩属于非实时压缩，追求的是高清晰度，一般的分辨率都是d1（720*576），而且，它的音频品质也要求很高，采样频率和采样精度都非常高。dvd的视频压缩算法是mpeg-2，而它的音频是lpcm、dolbyac3、mp3或者aac。
dvd的存储技术表现形态就是dvd光盘，目前市面上常用的dvd光盘最大容量可达4.7gb。目前dvd技术最发达的是日本，他们的专利最多，技术也最领先，基本上处于垄断地位了。
中国也有自己的dvd标准，叫做evd，这个公司很久前就在努力的推广他们的标准了，不过客观的评价，进展不能算很乐观，还需要努力。
多媒体技术在家庭中的应用，这几年也出现了一些很好的亮点，比如家用电视支持网络和媒体功能、电视支持录像功能等，不过总体评价，这些都还远远没有普及，还需要进一步发展。个人更看好以机顶盒这样的方式来满足多媒体需求。

1.3.2 视频会议
视频会议可以说是视频技术应用最古老的行业了，之所以这么说，是因为第一个视频压缩标准h.261就是为了视频会议而制定的。
视频会议行业是实时音视频压缩技术和网络通信技术结合的产物。目前视频会议系统的发展，除了满足人们基本的语音和图像信息交流外，还包括了强大的数据信息共享、开展协同工作等功能。
视频会议系统主要包括的产品有：语音输入输出设备（mic、音箱等）、摄像头、电视、视频会议终端、mcu等。视频会议专用的摄像头日本索尼公司市场占有率无可争议的是第一。而视频会议终端和mcu市场目前排第一的是美国的polycom公司，polycom的音频技术非常强大，它在中低端市场优势很明显，而挪威的泰德（tandberg）在高端市场则做得更好一些。视频会议系统对音视频技术和网络技术要求都比较高。从实际应用来说，相对视频，视频会议系统对音频要求更高一些。随着现在视频技术的发展和网络带宽的不断改善，人们对视频的要求也越来越高，不过，音频方面的处理始终是关键，比如回声消除技术等。

1.3.3 视频监控
根据目前比较流行的划分方法，视频监控行业已历经三代。第一代被称为cctv监控，也就是一个摄像头加一个监视器组成一个最简单的视频监控系统，很多时候还只是黑白的监控画面，目前采用第一代监控系统的客户已经很少了，不过在一些很小的便利店、超市，我们还是可以看到这样的监控系统。第二代视频监控系统典型的产品形态是板卡和dvr，即使到现在，这种监控系统也还很流行，在第二代监控系统中表现最好的企业是杭州海康，他们几乎垄断了板卡市场，dvr市场占有率也连续几年排名第一了，第二代监控系统核心是实时视频压缩技术，把摄像头拍摄下来的画面进行压缩和存储到本地硬盘。目前，视频监控行业已经发展到了第三代，也就是远程视频监控，它把网络技术和视频压缩技术结合起来，不过和视频会议系统不同的是，监控行业对音频的要求不高，但是，对图像的要求却高很多，从传统的要求来说，视频监控不仅要求图像能够更清晰，对帧率的要求也很高，这也是从监控的安全考虑的需求。
远程监控系统的主要产品是视频服务器（ipvs，也有产商叫dvs）和网络摄像机（ip camera），这两种产品都具备实时压缩和网络传输的功能，功能上的区别是ip camera自带摄像头，而ipvs需要用户自己配摄像头，当然，ipvs在满足监控市场的需求上，比ip camera更强大一些，一般来说，图像的压缩效果也更好些，而且，它一般还支持所谓的报警输入输出接口，当然，在价格上，网络摄像机有比较大的优势。

1.3.4 流媒体行业
流媒体也是网络技术和视频压缩技术结合的产物，它的具体应用形式很多，比如网上直播、手机流媒体、iptv（网络电视）等等，都是比较新的东西，再比如现在网络上流行的所谓播客，我也把它归类为流媒体行业。
流媒体应用，对编码器的要求可能是最高的了，这是因为每台流媒体服务器都会有很多用户来连接访问媒体数据，压缩率如果提高的话，同等图像质量下，同等图像带宽可以支持更多的用户，这点很重要，流媒体行业应用的最大瓶颈就是服务器支持的用户数了。
为了解决服务器的这一瓶颈，最近几年出现了一种叫做p2p的网络传输技术，它号称是用户越多，用户欣赏视频会越流畅，而需要的服务器仍然只是一台。这个技术最成功的产品案例就是skype软件了，好像是2005年它被ebay以26亿美元成功收购，这即使到现在，也被称为一个互联网历史上不可复制的奇迹。除了skype，其他应用p2p技术的直播软件还有pplive等，现在也都比较流行。
iptv算是流媒体在家庭的一个应用形式，前两年在国内也很火过一阵子。我的感觉，单纯从技术上评价，iptv也还有点早了，现在可能还不太成熟，我的理由有如下几点：目前家庭用户上网主要的带宽还是2兆或者以下，在这个带宽下，目前主流的压缩技术，压缩出来的效果可能和有线电视比还相差很明显，要想进一步提高，可能还需要h.264的普及应用。如果要升级到 h.264的话，也就是说目前的iptv机顶盒在技术上还不够成熟，并不能一步到位解决问题。所以，感觉iptv在技术上要可行，可能还需要再等3-5年吧。

1.3.5 视讯行业
所谓的视讯行业，就是视频和通讯技术结合的行业，上面所说的视频会议、远程视频监控和流媒体行业都属于视讯行业的范畴。
还有一个很有影响的产品，就是ip电话，这个产品大家应该都很熟悉了，几年前也有过一段时间的炒作，现在看好像也还没普及，和iptv类似，个人也是感觉还是有点早了，可能再过几年会有机会起来。它应该算是视频会议的家庭应用产品形态吧。

二知识篇
2.1 音视频协议、通讯协议介绍
2.1.1 两大标准制定组织
这里的标准，主要指的是音视频压缩标准。两大组织分别是国际标准化组织（iso）和国际电信联盟（itu），相信it行业的从业者没听说过这两个行业的人很少。
在音视频压缩标准方面，mpeg系列的协议是iso制定的标准，而h系列的协议则是itu制定的标准。

2.1.2 视频协议
目前主要的视频压缩协议有：h.261、h.263、h.264和mpeg-1、mpeg-2和mpeg-4。第一个视频压缩标准是h.261，它的算法现在来看，非常简单，但是，它的很多视频压缩的思想，一直影响到现在最新的压缩标准h.264。h.264单看名字，感觉是itu组织制定的，其实它还有一个名字叫mpeg-4 part 10，翻译过来叫mpeg-4 第十部分，这是因为h.264是iso和itu组织共同制定的，版权共享。其实，一直以来，h系列的标准制定者和mpeg系列的标准制定者基本上就是同一群人，而且，这两个系列的算法思想基本上都差不多，唯一有一点不同的协议是mpeg-4，它在它的高级profile中提出了小波变换等算法来实现视频压缩，从实际发展看，个人感觉不是很成功，采用小波变换的商用codec很少，这可能和这些算法的达不到实时性有关系。
从应用的角度看，mpeg 系列在消费类应用更广些，大家也更熟悉些，我们熟悉的vcd格式视频主要是mpeg-1，dvd的视频则是mpeg-2，早期大家看的电影在电脑上存盘文件格式都是*.mpg，基本上也都是mpeg做的压缩了。在行业上，国内的监控行业，也是从mpeg-1到mpeg-2，到前两三年的mpeg-4，再到最近的h.264。而h系列的标准，用得最多的是视频会议，从h.261到h.263，再到h.263+、h.263++等，再到现在的h.264。
从技术角度说，h系列的协议对网络的支持更好些，这点mpeg系列要差一些，但是，mpeg它每一代都比h系列同一代的协议要出得晚些，算法也相对更先进些，因此，它用来做存储协议是很合适的，这也就是为什么普通消费类产品用户很少了解到h系列协议的原因。
h.264是两大组织最新的算法成果，它在算法层面应该说是非常先进了，有人评价，h.264是视频压缩技术的一个里程碑，在可预见的5到10年内，出现新的视频压缩协议可能性很小，除非压缩理论有重大突破。
中国也有自己的视频压缩协议，叫做avs，搞了好多年了，不过搞得不是很好。从市场分析，消费类电子、视频会议和流媒体行业，现在要再想进去可能很困难了。不过最近听说avs又有点火起来了，有消息称，iptv指定要支持avs，这可能是它的最后机会了吧。
除了上面说的协议，还有很多公司也有自己的压缩算法，不过基本上都是不公开的了，他们这些算法也都非常好，不过和开发人员关系倒不是很大了，典型的是微软的wmv、realplay公司的rm和rmvb等，他们的使用者也很多，而且他们都偏向流媒体应用。

2.1.3 音频协议
音频协议也分两大类，itu组织的主要是用于视频会议的g系列协议，包括g.711、g.722、g.723、g.726、g.728、g.729等。这些协议主要有两大特点，第一是比较关注语音压缩，毕竟开会主要是要听人讲话；对音乐的压缩效果可能就不是太好了；第二是压缩率都比较大，码率都比较低，典型的g.723支持5.9k/s这样的码率，而且语音音质还很不错。iso的音频可能更为人熟知一些，最流行的就是mp3，它的全称是mpeg-1 audio layer 3，意思是mpeg-1的音频第三层；另外，最新的音频算法被称为aac（也称为mp4），它定义在mpeg-2或mpeg-4的音频部分。他们的特点是音质好，支持多声道，高采样精度和采样频率，尤其对音乐的压缩效果比g系列要好太多。当然，这也是因为它们的应用领域侧重点不同造成的。
同样的，很多大公司也有自己的语音压缩标准，效果也非常好。不过都是他们自己的知识产权和算法，通用市场用的还是少。

2.1.4 上层通讯协议
在视频会议系统中，目前最流行的有h.323和sip协议，在流媒体应用中，isma rtsp应用得比较多，它属于开源项目，而很多流媒体产商有自己的流媒体传输协议，比如微软的mms等。
h.323 主要用于视频会议，被称为协议簇，我们前面提到的h系列视频压缩协议和g系列音频压缩协议都属于它的子协议。除了音视频编解码器外；它还定义了各种数据应用，包括t.120、t.84、t.434等；另外还包括h.245控制信道、h.225.0呼叫信令信道以及ras信道。详细的h.323的知识，这里就不深入介绍了。
sip是由ietf提出来的一个应用控制（信令）协议。正如名字所隐含的--用于发起会话。它可用来创建、修改以及终结多个参与者参加的多媒体会话进程。参与会话的成员可以通过组播方式、单播连网或者两者结合的形式进行通信。
h.323 和sip分别是通信领域与因特网两大阵营推出的建议。 h.323企图把ip电话当作是众所周知的传统电话，只是传输方式发生了改变，由电路交换变成了分组交换。而sip协议侧重于将ip电话作为因特网上的一个应用，较其实应用（如ftp，e-mail等）增加了信令和qos的要求，它们支持的业务基本相同，也都利用rtp作为媒体传输的协议。但h.323是一个相对复杂的协议。
rtsp主要用于流媒体传输，它的英文全称是real time streaming protocol。典型的应用就是网络电视的应用，由客户向服务器进行点播，如果在监控行业应用的话，建议当用户进行远程回放录像时，可采用rtsp协议。

2.2 音视频基本概念介绍
2.2.1 视频的基本概念
rgb和yuv
rgb指的是红绿蓝，应用还是很广泛的，比如显示器显示，bmp文件格式中的像素值等；而yuv主要指亮度和两个色差信号，被称为luminance和chrominance他们的转化关系可以自己去查一下，我们视频里面基本上都是用yuv格式。

yuv格式
yuv 文件格式又分很多种，如果算上存储格式，就更多了，比如yuv444、yuv422、yuv411、yuv420等等，视频压缩用到的是420格式，这是因为人眼对亮度更敏感些，对色度相对要差些。另外要注意几个英文单词的意思，比如：packet、planar、interlace、 progressive等。

帧率
每秒钟图像的刷新速度。pal制式的电视，帧率是25帧每秒，ntsc制式的电视帧率是29.97帧每秒。我们常用的电脑也有刷新率，一般来说，电脑的刷新率要在75赫兹以上，人眼才不会觉得闪。

隔行扫描（interlace)和逐行扫描（progressive)
一般的电视上都是隔行扫描，而显示器都是逐行扫描。这里有一个场的概念，隔行扫描是一帧等于两场，而逐行扫描则是一帧就是一场。

码率
它的单位是 bit per second，一般所有描述带宽的概念，单位都是bit，描述存储容量的单位一般都是大b，也就是byte（字节）。

分辨率
图像的分辨率指的是它的像素数，一般用得最多的是cif，也就是352*288，4cif自然就是指704*576，而d1的分辨率严格意义上是 720*576，大小来说和4cif差不多了。当然现在还有很多高清的分辨率，这些我不是太了解，大家感兴趣可以查一下。另外，国外很多时候，对cif的高度取240，这是因为他们的帧率比我们高（29.97hz），自然，高度要小一些了。

实时与非实时
主要用来形容编码器，它含有两个意思，一个是要保证帧率，也就是每秒25帧，另一个是“live”的意思，意味着直播，所谓的“实况转播”的“实”。

延时
也是形容编码器的一个重要指标，一般来说，200ms到300ms人的感觉不会很明显，到了500毫秒的话，还是可以很明显感觉到的。

音视频同步
作为视频会议的应用，一般要求做到所谓的“唇同步”。基本的保证音视频同步的手段就是时间戳（time stamp）。

复合视频和s-video
ntsc 和pal彩色视频信号是这样构成的--首先有一个基本的黑白视频信号，然后在每个水平同步脉冲之后，加入一个颜色脉冲和一个亮度信号。因为彩色信号是由多种数据“叠加”起来的，故称之为“复合视频”。s-video则是一种信号质量更高的视频接口，它取消了信号叠加的方法，可有效避免一些无谓的质量损失。它的功能是将rgb三原色和亮度进行分离处理。

ntsc、pal和secam
基带视频是一种简单的模拟信号，由视频模拟数据和视频同步数据构成，用于接收端正确地显示图像。信号的细节取决于应用的视频标准或者“制式”--ntsc（美国全国电视标准委员会，national television standards committee）、pal（逐行倒相，phase alternate line）以及secam（顺序传送与存储彩色电视系统，法国采用的一种电视制式，sequential couleur avec memoire）。
中国的电视信号一般都是pal，而美日则是ntsc。这2个制式的帧率，图像尺寸都有所不同。

线数
我们在买摄像头的时候，经常会提到一个叫线数的概念，它其实就是分辨率中的高（height）。举个例子：pal制式的d1图像，线数就是576。

亮度、饱和度和对比度
英文名分别是：brightness、saturation和 contrast。这是三个表示图像的重要指标。

2.2.2 音频的基本概念
采样率
音频的采样率其实类似视频的帧率，意思是每秒钟采样的次数。g.711的采样率是8k（人的语音大概就在这个频率范围以内），而mp3支持的典型采样率是 44.1khz（超过人耳响应频率的2倍多一点——奈奎斯特定理）。很明显，mp3压缩的原始声音要比g.711好多了。

采样精度
就是每个采样进行模数转换时的量化系数。g.711是8bit采样精度，而mp3典型的是16bit。

回声消除
视频会议应用中的音频最大问题。回声产生的原因很复杂，一般认为，在互联网中的语音传输，延时来源有三个：压缩延迟、分组传输延迟和处理延迟。语音压缩延迟是产生回声的主要延迟，例如在g.723.1标准中，压缩一帧（30ms）的最大延迟是37.5ms。分组传输延迟也是一个很重要的来源，测试表明，端到端的最大传输延迟可达250ms以上。处理延迟是指语音包的封装时延及其缓冲时延等。

2.3 视讯产品简介
这一节，我们对采取一些视讯行业中的产品进行简单介绍，希望对大家有用。

2.3.1 mp4
这是最近两年开始流行的新产品，它的定义其实业有些混乱。目前流行的说法是：只要和视频沾边的便携式播放器，都叫mp4。不过下面的图更能说明问题。

2.3.2 光端机
一种完成电——光信号转换的设备。主要用于模拟远程视频监控系统，它可将远端的摄像头模拟信号转换成光信号传送到监控中心，配合监控中心的dvr使用。

2.3.3 视频会议mcu
它是视频会议的核心设备之一。当参与视频会议的终端超过2个时，就必须通过mcu来召开会议。
mcu的基本功能是媒体流转发和混音，并进行会议管理，随着视频会议的发展，mcu支持的功能也越来越多，比如：混屏、远程摄像头控制等功能。

(warsour)

bit rate / frame rate /sample rate等等	图像处理中色调、亮度、饱和度的定义
什么是VSync（转）	镜头常用术语,参数说明和镜头焦距选择方法
e2扫盲	url vs uri vs urn
全面认识桥接、交换和路由	SCR, PCR, ESCR, PTS, DTS
Alpha Channel	数字图像压缩原理：运动补偿

搜索

热门标签:

音视频基础