登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

面包会有的

... ...

 
 
 

日志

 
 

编码中的cabac的模型  

2011-07-09 18:33:02|  分类: H264 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

cabac的编码由三个部分组成:

一. 二进制化 (主要是将非二制的各语法元素转换成二进制的比特序列,也可以称为对输入流的预编码,经它编码后的输出是MPS概率极高的比特流。)MPS(高概率符号0或1) 、LPS(低概率符号1 或0)

在算术编码流程中必须的记录状态为:

1、L 当前区间的下限

2、R 当前区间的大小长度

3、Binval 当前字符,即二进制的符号1或0

4、各字符的概率Px

当前处理的字符为MPS时区间递进只是子区间的长度发生了改变而作为影响实际输出值的L却没有发生改变,这个现象意味着如果输入流中连续出现大量的MPS或者MPS相对LPS出现的概率比较高时可以达到极高的压缩效果,编码输出的码率也更接近熵率

 

二进制化有四种转换方式:

1、 Unary Binarization(U) ;

2、Truncated unary binarization(TU);

3、Kth order Exp_golomb binarization (UEGK);

4、Fixed_length binarization (FL)

 

二. 上下文建模

为基本的CABAC 编码过程 , 一种regular coding mode  另一种为 bypass coding mode.旁路编码模式

只有regular coding mode 应用了上下文模型,而直通模式用于加速编码流程(当概率近似为50%的时候)。

这部分主要说明regular coding mode的进程。这里,先说理论,再讲流程。 

理论:

1,CABAC 算术编码基础

算术编码的复杂度主要体现在概率的估计和更新

CABAC建立了一个基于查表的概率模型,将0~0.5 划分为64个概率量化值,这些概率对应于LPS字符,而MPS的概率为(1-Plps),概率的估计值被限制在查表内概率的刷新也是依据于查表。如果当前出现的字符是MPS,则P(lps) 变小

划分子区间的乘法运算 R=R x Px

对于这里的乘法运算,CABAC首先建立了一个二维表格存储预先计算好的乘法结果,表格的入口参数一个来自Px( 对应于theta,概率量化值),另一个来自R(R的量化为:p=(R>>6)&3 ),可以参考老毕的书p128

-----------------------------------------------------------------------------------------------------------------------------------------------------

流程图:(ps:这里没有画出图来,可以参考老毕的书p128)

图中,灰色部分是概率的刷新部分,表TABRangeLPS存储预先计算好的乘法结果,表TransIDxLPS是与对应的概率表

------------------------------------------------------------------------------------------------------------------------------------------------------

有三个值是比较特殊的:

theata=0,LPS的概率已达到了最大值0.5,如果下一个出现的是LPS,则此时LPS和MPS的字符交换位置.

Theta=63对应着LPS的最小概率值但它并没有纳入CABAC的概率估计和更新的范围,这个值被用做特殊场合,传递特殊信息,比如,当解码器检测到当前区间的划分依据是这个值时,认为表示当前流的结束.

Theta=62 ,这是表中的最小值,它对应的刷新值是它自身,当MPS连续出现,LPS的概率持续减小,到62保持不变。

 

2 CABAC 上下文模型查找自身的概率表

CABAC将片作为算术编码的生命周期,h.264将一个片内可能出现的数据划分为399个上下文模型每个模型均有自己的CtxIdx(上下文序号),每个不同的字符依据对应的上下文模型来索引自身的概率查找表

即收到字符后,先索引该字符的上下文模型序号(CtxIdx),才能找到它的概率查找表(TransIdxLPS),再做上图上的操作。这些模型的划分精确到比特,几乎大多数的比特和它们邻近的比特处于不同的上下文模型中。

 

查找每个比特所对应的上下文模型有两个步骤:

1  确定该比特所属的句法元素。即例如: mb_type, mb_field_decoding_flag 等。

        h.264为每个句法元素分配了一个上下文模型区间,T9-11

        该句法元素所有比特位的上下文模型的上下文序号(ctxIdx)都处于这个区间中

 

2.按照某一个法则为当前比特在步骤1中得到的区间中找到对应的CtxIdx该法则对不同的句法元素各不相同。这个法则通常用表来表示,下表列出了大多数句法元素各比特查找CtxIdx的法则其中CtxOffset为步骤1中所处区间起始点的偏移但是在表中也可以看到,某些比特对应多个上下文模型,这时,需要在解码中根据前后宏块的空间相关性进一步确定。对应标准中的Table 9-29()

即当

1.索引ctxIdx 小于等于72时,是关于宏块类型,子宏块类型,预测模式,以及基于片层和宏块层的控制信息句法元素。此时,CtxIdx = Ts (步骤1中的初值)+Ctxoffset ;

2.索引ctxIdx大于72时,是残余数据编码,其中Coded_block_pattern 句法元素的索引同上式, 其余残余数据公式为:CtxIdx = Ts (步骤1中的初值)+Ctxoffset +Q(ctx_cat)

其中Q(ctx_cat)为其上下文范畴context category决定。

帧模式中,实际只用到399上句法模型的277个

3 码流输出 

在实际过程中,编码器并不是等递进到最终区间才办出码字的,这里有两个方面的原因,一个是在编码器在递过运算过程中,如果没有输出,信道会出现空闲,形成浪费,二是输入流较长时,最终区间非常小,必须以极高的精度来记录L和R,幸运的是,在二进制编码中, 区间的上下限以二进制形式表示,每当下限的最高有效位与上限的最高有效位一样时,就可以移出这个比特。 这样的方法可以保证编码器在递同时不断的输出码流。序列出现的可能性越大,区间就越长,确定该区间所需要的比特数就越少

实际上,编码过程中所有变量的值都不超过1,编码器中只保存小数点后的数字仍然可以正确编码,这样我们就可以用整数运算来完成上述算法。更进一步我们可以看到,在编码过程中随着概率区间的不断减小,上限和下限会越来越接近,一旦两者的最高有效位的值相等这一位上的数值就不再改变。这时我们就可以将该有效位输出,同时将上限和下限左移一位,并将上限的最低有效位置9,下限的最低有效位置0,这个过程称为归一化,实际上是将编码器中序列的概率区间放大以保证编码器的精度。然后对下一符号编码,直至序列结束。经过上述改进,算术编码就可以在实际中应用了。

 

但是,新的问题又出现了。在使用上述算法进行编码时,可能会遇到这样的情况:假设上、下限用6 位数表示,上限值为500004,下限值为499997,由于最高位不相等不能输出,而序列对应的区间却已经非常小了,继续编码,可能会出现上限值为500000,下限值为499999,这时无论再输入什么符号,上、下限都不再改变,因此编码器也不会有任何输出,这种情况就称为编码器下溢。我们假设上限值为500004,下限值为499997 来说明解决下溢的方法。每次循环中对上、下限的次高有效位进行检查,

如果(1)上限的次高有效位为0,(2)下限的次高有效位为9,这就表示编码器存在下溢的可能,这时将上、下限的次高有效位都去掉,并将剩余有效位都左移一位,上限的最低有效位移进一个9,下限的最低有效位移进一个0,继续对上、下限的次高有效位进行检查。如果(1)(2)两个条件仍然满足,继续上述操作,否则记下从次高有效位移出比特数m,例子中m=4,经过多次循环,上、下限的值分别等于549999 和470000,继续下一符号的编码直至有数字输出,显然编码器输出的下一个数字是4 和5 中的一个。假设输出4,编码器接着要再输出m 个9,将m 置0 后,继续对下一符号编码;相反地如果输出5,就接着输出m 个0。这个方法的实质是在编码器没有输出情况下,扩大编码区间长度以保证编码器的精度。

 

流 程 :

在一帧的开始的时候, 先看是否字节对齐, 没有对齐则补1, 直到字节对齐。

初始化:

CABAC的生命期是片,每个片开始,要对399种上下文模型全部过行初始化工作,初始化的步骤是 

1, 将过区间复位到[0,1]

2, 为每一个上下文模型指定一个初始w 和theta

(a) h.264 为每个上下文模型定义了初始常量m,n,通过查表T9-12 ~ T 9-22 可得上下文模型相对应的m,n .

(b) 按照如下算法计算w,theta.(参考老毕p131)

preCtxState = Clip3( 1, 126, ( ( m * SliceQPY ) >> 4 ) + n )

PS:slice_qp_delta表示用于条带中的所有宏块的的QPy的初始值,该值在宏块层将被mb_qp_delta的值修改,该条带初始QPy量化参数按下面的公式计算:SliceQPy=26+pic_init_qp_minus26+slice_qp_delta

slice_qp_delta应该受限,这样SliceQPy的值将在-QpBdOffsetY到+51之间;

if( preCtxState <= 63 ) {

pStateIdx = 63 - preCtxState

valMPS = 0

} else {

pStateIdx = preCtxState - 64

valMPS = 1

}

其中clip3(a, b ,c )表示将c 的值限制在[a ,b]之间

 

CABAC(转自李世平的专栏)手册为h.264官方中文版(2005)电子版(手册不同,表也会有相应变化)

首先要说明的是CABAC的生命期是SLICE,因此本篇所讲的也是一个SLICE里CABAC的流程,其次对于我们来说场模式几乎用不到,所以本文的编码流程只使用帧模式,因此实际上用到的表只有277个, 当然如果我写成399, 不是说里面所有表都用到的. 这里只是声明一下这个问题, 如果大家实际操作的时候发现模型表序号始终不过276那是很正常的. 本文参考了T264的代码, 应此一帧里只有一个SLICE. 而本文用的变量则采用标准里的变量.本文不会讲CABAC的原理, 想要了解原理请参考<<Context-based adaptive binary arithmetic coding in the H.264AVC video compression standard>>

片级:以下步骤在片期间只做1次

1, 在一帧的开始的时候, 先看是否字节对齐, 没有对齐则补1, 直到字节对齐

2, 先根据SliceQP算出399个模型表里的pStateIdx和valMPS, 构成一张初始表,根据标准9.3.1.1里的公式, 同时可以参考T264_cabac_context_init函数. 这张表不要和模型表弄混,虽然都是399维的, 但我们宏块级编码过程中实际用的只是这张表, 而不是标准里的那张模型表Table 9-23, 9-23这张表是用来算由pStateIdx和valMPS构成的初始表的.

3, 然后就是初始化CABAC的初值, 下界指针,区间范围 (0x1FE)等等,可参考T264_cabac_encode_init函数.

宏块级: 以下则是每个宏块都要做一次的, 这一级中会处理很多的语法元素, 这里我只用前2个语法元素做为例子: mb_skip_flag, mb_type

4, 重整区间, 确保在区间在28-29.如果这里的区间概率来自BAC,如果不明白先google算术编码,然后再看上面那个参考文献.

5, 首先mb_skip_flag标志进行CABAC编码, 由于这个元素本身就是2值的,所以直接就可以进行上下文模型选择了:

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

1. 由标准(老毕书上p129)知道, P帧(这里要注意是slice_type==P, 不是mb_type)的这个元素用11号表, B帧用24号表. 可以参考T264中的T264_cabac_mb_skip函数.

2. 由于这个元素只有1个bit, 因此只要算第一个bit的ctxIdxInc就可以了,。

     参考标准Table 9-30,(老毕书上的p130表6.16) 可以看到表中11 和24号表确实只有第一个bit是可用的, 根据9.3.3.1.1子条款可以知道这一位的ctxIdxInc可能是0, 1, 2中的一个, 在T264中简单的说就是看左边和上边宏块是否是Skip模式, 有一个是skip模式ctxIdxInc就加1. 也就是全不是skip为0, 有一个skip则ctxIdxInc就是1,全是skip则ctxIdxInc就是2.

3. 下来就是算术编码部分了, 简单提一下基本原理: 在CABAC中为了减少RLPS = R*pLPS 这个区间变换公式的开销, 用128个有限状态(实际可用的为126)代替pLPS , 用rangeTab这张表代替了RLPS, 见标准Table 9-35(老毕书的附表2.5)可以参考T264中的T264_cabac_encode_decision函数, 看一下具体流程:

      得当前bin的pStateIdx和valMPS(来自片级计算的那张初始表)

      根据标准9.3.3.2.1子条款, 求得qCodIRangeIdx用来索引表rangeTab(老毕书的附表2.5, 即可以求得变换后的区间了.

      修正区间codIRange = codIRange – codIRangeLPS

      (1)判断当前的bin是否为最有可能的值, 如果不是(binVal!= valMPS),则更新区间下边界codILow = codILow + codIRange, 同时修正区间codIRange = codIRangeLPS;

      然后判断当前状态, 如果已经达到状态0, 是则把valMPS的值取反(即0,1互换), 如果还有没达到0, 则进行LPS的状态迁移,具体参看标准Table 9-36的状态迁移表中的transIdxLPS

     (2) 如果当前的binVal值等于valMPS, 就比较简单了, 直接进行状态迁移, MPS的状态迁移也很简单, 直接数据+1就可以了(最大63),具体参考标准Table 9-36的状态迁移表中的transIdxMPS, 状态的转移其实就是修改了399个模型的初始表.

      区间重整, 如果区间过小则输出一些bit, 这样可以不用把数据全部编码完再输出, 可以编一部分输出一些.

      已编码的2进制值bin总数+1, 即SymCnt+1, 这个值用于字节填充, 可以参考标准9.3.4.6, 其中的BinCountsInNALunits就是指这个值,至此算术编码部分就结束了.

-----------------------------------------------------------------------------------------------------------

注PS:

1、变量codIRangeLPS的值为:

----给出 codIRange 的值,变量qCodIRangeIdx值为:

qCodIRangeIdx=(codIRange>>6)&0x03

     -------给出qCodIRangeIdx和ctxIdx的pStateIdx,则表9-35中规定的变量rangeTabLps赋值给codIRangeLPS

codIRangeLPS=rangeTabLps[pStateIdx][qCodIRangeIdx]

2、 变量codIRange 置为等于 codIRange - codIRangeLPS

-----如果codIoffset大于等于codIRange,变量binval置为1-valMPS,codIoffset-codIRange,且codIRange置为 codIRangeLPS

-----否则变量binval置为 codIRangeLPS

得到binval,则要调用状态转移过程

-----------------------------------------------------------------------------------------------------------------------

6, 下面就是开始编码第二个语法元素了: mb_type

1) 不同于上一个语法元素mb_skip_flag, mb_type这个语法元素本身并不是二值化的, 因此编码的第一步是进行二值化, 查阅标准Table 9-25可知mb_type的二值化方法需要参考9.3.2.5子条款, 由该条款可知mb_type的二值化相对简单, 可以直接参考表得到,

例如I片中某宏块mb_type为I_16x16时则二值化后bin0=1, 且非I_PCM则bin1=0, 亮度AC无 非0系数则bin2=0, 色度有 非0系数则bin3=1, 色度DC,AC都无 非0系数时,bin4=0, 帧内预测模式为0时则bin5=0, bin6=0, 因此我们就得到了标准中I_16x16_0_1_0的二值化串为1001000

2) 下来是上下文模型选择, 由Table 9-11可知 I的mb_type元素起始表是3号表, 然后参考标准表Table 9-29, 计算bin串中每个bin的ctxIdxInc值,由表可知

bin0要参考9.3.3.1.1.3才能确定ctxIdxInc值, 简单的说就是如果上边和左边的块模式有一个不是I_4x4则ctxIdxInc++, 这样就有0,1,2这3种可能的结果了; (9.3.3.1.1.3节是语法元素mb_type的ctxIdxInc的推倒过程

bin1的ctxIdx固定是276, 直接就调用了encoder_terminal模块, 即标准Figure 9-11的右分支;

bin2的ctxIdxInc是3;

bin3的ctxIdxInc是4,;

bin4和bin5要参考9.3.3.1.2子条款, 由该条款可知如果bin3是1则bin4的ctxIdxInc=5,bin5的ctxIdxInc=6,

如果bin3=0则bin4的ctxIdxInc =6,bin5的ctxIdxInc =7,由于I_16x16_0_1_0的二值化串为1001000, 其中bin3=1, 由此可知此时bin4的ctxIdxInc =5, bin5的ctxIdxInc =6;

最后由表9-29 中bin6的ctxIdxInc为7.

至此二进制串所有位的表号可以用3+ctxIdxInc来得到了.

3) 下来就是算术编码部分,这个部分于mb_skip_flag的算术编码部分步骤一样.

这里要提的是, 第一步获得当前bin的pStateIdx和valMPS的模型表已经被更新了(是表被更新,但不一定是当前表), 还记得么? 是在上一个语法元素的状态转移的时候更新的.

7, 下面的语法元素就是按照标准7.3.5的语法一一编码的, 其过程和上面2个语法元素的编码过程大同小异,就不一一细述了.

……如此做完所有的宏块里的语法元素

又回到片级:

8, 写入end_of_slice_flag的标志,即完成标准Figure 9-11的左分支, 然后调用T264_cabac_encode_flush函数, 输出bit

9, 进行byte stuffing, 参考标准9.3.4.6 Byte stuffing process里的公式可以求得k, 在码流中填充k次的0x000003

10, 最后是模型更新,更换模型表(更改PB帧所用的模型表,而I帧所用的不变)

  评论这张
 
阅读(1763)| 评论(2)

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018