织梦CMS - 轻松建站从此开始!

罗索

语音音频压缩格式--nellymoser

落鹤生 发布于 2013-10-23 09:12 点击:次 
Nellymoser音频格式是一种专有的单声道音频编码格式,专门应用于低比特率的语音音频传出,并且为之做了优化。Nellymoser解码器由Nellymoser公司拥有,并且授权Macromedia/ Adobe的Flash技术使用。 Nellymoser编码是Flash的一个组成部分.
TAG:

公司:http://nellymoser.com/

例子:http://samples.mplayerhq.hu/A-codecs/Nelly_Moser/

解码库:http://code.google.com/p/nelly2pcm/

编码库:http://nellymoser.narod.ru/

        Nellymoser音频格式是一种专有的单声道音频编码格式,专门应用于低比特率的语音音频传出,并且为之做了优化。

        采集时,声音数据被分成含有256个样本每个帧被转换频域,并确定最高振幅频率一些频带被选择用于编码而其余部分被丢弃每一帧比特流之后使用当前频段所采用的振幅进行编码此编解码器考虑实际采样率而是采用一个固定的比率--输入采样和输出数据包大小(2比特)之比

        Nellymoser解码器由Nellymoser公司拥有,并且授权Macromedia/ AdobeFlash技术使用 NellymoserFlash的一个组成部分Flash 6.0及以上支持该编解码器对语音音频的实时性和低延时编码进行优化 Adobe Flash Player的客户从用户的麦克风录音时使用Nellymoser编码器,不要让Flash程序员选择的任何其他编解码器(9.0以后可以使用speex编码)。声音捕获的采样率可以由Flash程序员控制,达到增加或减少编码比特率和质量的效果。在客户端主机上进行编码&压缩数据,并且通过Adobe的RTMP协议发送RTMP服务器(Flash Media ServerRed5Wowza

 

编码说明

        Nellymoser编码器的声音编码步骤可以被分为4个步骤

        1、转换:

          原始256音频采样,采用改进的离散余弦变换(Modified Discrete Cosine Transform)进行变换。

        2、去噪:

          在频域上进行去噪操作,以减少不需要的噪音的数量

        3、量化
           对一些频率系数进行量化

        4、压缩:

          采用差值编码(DPCM编码,简称差值编码,是对模拟信号幅度抽样的差值进行量化编码的调制方式(抽样差值的含义请参见“增量调制”))或者(自适应差分脉冲编码调制,adpcm)进行压缩,以此达到较少冗余,并利用的效果。压缩后的二进制数据流通常含有许多连续零比特,这就是频域系数进行量化的结果

        在去噪和量化阶段,将所得压缩二进制时间取样输入数据采用8的倍数个大小将达到的最佳编码质量        

 

Nellymoser ASAO 数据帧:

        ASAO的最终压缩包大小为64字节长度。FLV的音频数据帧通常包含1,2或者4个ASAO数据包,并且通常情况下每秒钟会有20-40个音频包。FLV 音频帧帧头长度为13个字节。

 

Nellymoser 比特流格式

        一个Nellymoser可以分成3个部分一个报头和2个有效载荷块,有效载荷共享报头里的参数

 

 Header Payload Payload

        每个有效载荷包含一个经过MDCT编码的帧每帧MDCT域中含有23个频带。下表描述了对各频带的大小

const uint8_t ff_nelly_band_sizes_table[NELLY_BANDS] = {
   2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 4, 4, 5, 6, 6, 7, 8, 9, 10, 12, 14, 15
};

 

头:

        包含了23个频带的量化采用DPCM编码。前6一个初始值的一个索引

       

const uint16_t ff_nelly_init_table[64] = {
  3134, 5342, 6870, 7792, 8569, 9185, 9744, 10191, 10631, 11061, 11434, 11770,
  12116, 12513, 12925, 13300, 13674, 14027, 14352, 14716, 15117, 15477, 15824,
  16157, 16513, 16804, 17090, 17401, 17679, 17948, 18238, 18520, 18764, 19078,
  19381, 19640, 19921, 20205, 20500, 20813, 21162, 21465, 21794, 22137, 22453,
  22756, 23067, 23350, 23636, 23926, 24227, 24521, 24819, 25107, 25414, 25730,
  26120, 26497, 26895, 27344, 27877, 28463, 29426, 31355
};

        之后,22个5位的增量索引

    

const int16_t ff_nelly_delta_table[32] = {
   -11725, -9420, -7910, -6801, -5948, -5233, -4599, -4039, -3507, -3030, -2596,
   -2170, -1774, -1383, -1016, -660, -329, -1, 337, 696, 1085, 1512, 1962, 2433,
   2968, 3569, 4314, 5279, 6622, 8154, 10076, 12975
};

负载快:

        每个负载快有198比特长,解码逻辑如下:

 for (i = 0; i < 124; i++) {
   if (bits[i] <= 0){
     v = 1/sqrt(2) with randomly flipped sign;
   }else{
     v = get_bits(bits[i]);
     v = dequan_table[bits[i]][v];
   }
   coeffs[i] = v * -pow(2, band_scale[i] / 2048);
 }

比特分配:

        比特分配算法找出每个系数应使用多少比特0 .. 6范围)
        目标位长度的计算公式如下

 bits[i] = (((sbuf[i] - offset) >> shift) + 1) >> 1;
 bits[i] = clip(bits[i], 0, 6);

       sbuf 来自band_scale,通过修改初始值来计算偏移量移位实现最终位分配达到或者接近(和不超过一个有效载荷块的大小,即198

 

逆量化(用于解码):

 

 for bits = 1:
   -0.8472560048, 0.7224709988,
 for bits = 2:
   -1.5247479677,-0.4531480074, 0.3753609955, 1.4717899561,
 for bits = 3:
   -1.9822579622,-1.1929379702,-0.5829370022,-0.0693780035, 0.3909569979, 0.9069200158, 1.4862740040, 2.2215409279,
 for bits = 4:
 -2.3887870312,-1.8067539930,-1.4105420113,-1.0773609877,-0.7995010018,-0.5558109879,-0.3334020078,-0.1324490011,
  0.0568020009, 0.2548770010, 0.4773550034, 0.7386850119, 1.0443060398, 1.3954459429, 1.8098750114, 2.3918759823,
 for bits = 5:
 -2.3893830776,-1.9884680510,-1.7514040470,-1.5643119812,-1.3922129869,-1.2164649963,-1.0469499826,-0.8905100226,
 -0.7645580173,-0.6454579830,-0.5259280205,-0.4059549868,-0.3029719889,-0.2096900046,-0.1239869967,-0.0479229987,
  0.0257730000, 0.1001340002, 0.1737180054, 0.2585540116, 0.3522900045, 0.4569880068, 0.5767750144, 0.7003160119,
  0.8425520062, 1.0093879700, 1.1821349859, 1.3534560204, 1.5320819616, 1.7332619429, 1.9722349644, 2.3978140354,
 for bits = 6:
 -2.5756309032,-2.0573320389,-1.8984919786,-1.7727810144,-1.6662600040,-1.5742180347,-1.4993319511,-1.4316639900,
 -1.3652280569,-1.3000990152,-1.2280930281,-1.1588579416,-1.0921250582,-1.0135740042,-0.9202849865,-0.8287050128,
 -0.7374889851,-0.6447759867,-0.5590940118,-0.4857139885,-0.4110319912,-0.3459700048,-0.2851159871,-0.2341620028,
 -0.1870580018,-0.1442500055,-0.1107169986,-0.0739680007,-0.0365610011,-0.0073290002, 0.0203610007, 0.0479039997,
  0.0751969963, 0.0980999991, 0.1220389977, 0.1458999962, 0.1694349945, 0.1970459968, 0.2252430022, 0.2556869984,
  0.2870100141, 0.3197099864, 0.3525829911, 0.3889069855, 0.4334920049, 0.4769459963, 0.5204820037, 0.5644530058,
  0.6122040153, 0.6685929894, 0.7341650128, 0.8032159805, 0.8784040213, 0.9566209912, 1.0397069454, 1.1293770075,
  1.2211159468, 1.3080279827, 1.4024800062, 1.5056819916, 1.6227730513, 1.7724959850, 1.9430880547, 2.2903931141
(simongyley)
本站文章除注明转载外,均为本站原创或编译欢迎任何形式的转载,但请务必注明出处,尊重他人劳动,同学习共成长。转载请注明:文章转载自:罗索实验室 [http://www.rosoo.net/a/201310/16792.html]
本文出处:CSDN博客 作者:simongyley
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
栏目列表
将本文分享到微信
织梦二维码生成器
推荐内容