浅谈基于JPEG双量化效应的图像盲取证

2016-04-19 14:14:55 安装信息网

　　摘要：JPEG图像的双量化效应为JPEG图像的篡改检测提供了重要线索。根据JPEG图像被局部篡改后，又被保存为JPEG格式时，未被篡改的区域(背景区域)的离散余弦变换(DCT)系数会经历双重JPEG压缩，篡改区域的DCT系数则只经历了1次JPEG压缩。而JPEG图像在经过离散余弦变换后其DCT域的交流(AC)系数的分布符合一个用合适的参数来描述的拉普拉斯分布，在此基础上提出了一种JPEG图像重压缩概率模型来描述重压缩前后DCT系数统计特性的变化，并依据贝叶斯准则，利用后验概率表示出图像篡改中存在的双重压缩效应块和只经历单次压缩块的特征值。然后设定阈值，通过阈值进行分类判断就可以实现对篡改区域的自动检测和提取。实验结果表明，该方法能快速并准确地实现篡改区域的自动检测和提取，并且在第2次压缩因子小于第1次压缩因子时，检测结果相对于利用JPEG块效应不一致的图像篡改盲检测算法和利用JPEG图像量化表的图像篡改盲检测算法有了明显的提高。

　　关键词：双量化效应;图像篡改;拉普拉斯分布;盲取证

　　引言

　　JPEG(Joint Photographic Experts Group)是当前主流的图像压缩标准，是目前静态图像中压缩比较高的，被广泛地应用于多媒体和网络程序中，而针对此类图像的伪造篡改也是越来越多，并且仅仅依靠人眼很难辨别出真伪。在这种情况下图像的真实性也就成为人们所关注的问题。因此，本文对此类图像的取证技术展开研究。当前数字图像取证技术主要分为两类：主动取证和被动取证。主动取证技术[1]是预先对数字图像嵌入脆弱水印或签名，通过提取水印、签名的手段进行取证; 相比之下，数字图像被动取证技术作为一种在不依赖任何预签名提取或预嵌入信息对图像的真伪和来源进行鉴别的技术，只需要依靠待检测图像就可以实施取证，具有更高的应用价值，但其取证难度大于主动取证。针对经历双重JPEG篡改图像，研究学者已经提出了各种盲取证算法。很多学者通过对图像第1次压缩量化表的估计来定位篡改区域[2-4];Farid[5]则通过使用不同的压缩因子对待测的JPEG图像进行再次压缩，当压缩因子与篡改区域的压缩因子相同时，篡改区域表现出的失真程度最小，由此来实现对图像篡改区域的检测。He等[6]通过分析JPEG图像的离散余弦变换(Discrete Cosine Transform， DCT)系数的双重量化效应，通过寻找局部二次压缩的痕迹，首次实现了对JPEG图像的篡改区域的自动检测和定位。Binghiamton大学的Fridrich研究小组运用将针对图像单个像素点的方法转化为对图像块的操作，提出了一种基于图像块的DCT量化系数分析的盲取证算法[7];李晟等[8]则用一定的压缩因子对图像进行再次压缩，根据篡改区域的失真程度大于非篡改区域的失真程度，实现对JPEG图像的篡改检测;文献[9]通过利用每个交流(Alternating Current， AC)系数频率项的光谱能量密度中的峰值点个数与量化步长之间差值为1的特点，估计出量化表，进一步计算得到图像的块特征，通过块特征之间的不连续性来检测图像是否经过篡改。

　　然而，现有的大部分盲取证算法大都要求待检测图像是未压缩或者是压缩因子较高的图像，并且能够广泛应用的JPEG图像的篡改检测算法还比较少。本文基于JPEG图像压缩理论基础，通过对JPEG图像双量化效应的分析，利用其DCT域的AC系数的分布符合拉普拉斯分布，并采用局部邻域法对λ进行估计，依据贝叶斯准则，利用后验概率表示出篡改图像中存在的双重压缩效应的篡改块，实现对篡改区域的自动检测和提取。与文献[11]所采用的算法相比，本文方法的检测性能有很大的提升，特别是在第2次压缩因子(QF2)比第1次压缩因子(QF1)小时，检测效果更好。

　　一、JPEG压缩原理

　　JPEG压缩和解压过程如图1所示，JPEG压缩是一种有损压缩，它是基于8×8像素块的压缩编码过程，主要由预处理、分块、离散余弦变换、量化、Huffman编码等构成。

　　原始图像数据分成8×8的小块，经过DCT后，其低频分量都集中在左上角，高频分量分布在右下角，对于每一个8×8的小块，其中D(0，0)(即第1行第1列元素，D为8×8的图像块)代表了直流(Direct Current， DC)系数，其他的63个元素是AC系数。而低频分量包含了图像的主要信息(如亮度)，其中量化的目的就是为了保持低频分量，抑制高频分量，达到压缩图像的目的。而DCT系数的量化这一步骤是不可逆的，量化步长越大，图像在进行反量化时，所丢失的高频信息也就会越多，图像失真也就会越明显。量化矩阵通常与一定的压缩因子相对应，压缩因子是一个从1到100的整数。图像进行JPEG压缩时，通常需要指定一个压缩因子QF，一旦QF确定，量化矩阵QT就可以通过式(1)计算得出：

　　QT=[(QTij×α(QF)+50)/100]; i， j∈{0，1，2，…，7} (1

　　α(QF)=5000/QF，1≤QF<50

　　200-2QF，50≤QF≤100

　　其中：QTij是JPEG标准推荐亮度分量的量化矩阵，[・]表示四舍五入运算。

　　二、JPEG图像合成篡改的数学模型

　　JPEG合成篡改图像是指JPEG格式的图像的一部分被其他图像置换，如图2所示，图2(a)为一幅JPEG格式的背景图像P1，图2(b)为篡改来源图像P2，图2(c)为篡改合成图像P3，其数学模型可用式(2)描述：

　　y(i， j)=A1⊙P1(i， j)+A2⊙P2(i， j)=A・P(i， j)(2)

　　其中：y(i， j)为JPEG篡改合成图像;⊙表示Hadamard积;P1(i， j)为一幅JPEG格式的背景图像;P2(i， j)为其他图像(可以是JPEG格式的图像，也可以是其他无损压缩格式的图像);源图像P(i， j)=[P1(i， j)，P2(i， j)]T;置换混合矩阵A=[A1，A2]。这里　　A1=1， (i， j)∈U10， (i， j)∈U2

　　A2=1， (i， j)∈U10， (i， j)∈U2

　　其中：U1∪U2=U，U1∩U2=。本文的目的就是仅仅根据篡改合成图像分离出源图像P(i， j)中的篡改区域。

　　三、JPEG图像双重压缩中的双量化效应

　　JPEG图像进行第1次压缩时，需要用量化矩阵QT1对DCT系数进行量化，得到量化后的DCT系数。而进行第2次压缩时，则先把量化后的DCT系数乘以第一次量化矩阵QT1，再使用第2次量化矩阵QT2来进行量化操作。　　

　　以分辨率为256×256的Lena灰度图像为例，为了观察直方图特性，图像进行8×8分块的离散余弦变换后，我们提取所有8×8图像块的(1，2)位置处的DCT系数进行统计，图4(a)显示的是经过DCT后(1，2)位置上的未经量化的DCT系数概率分布直方图，图4(b)为经历量化步长Q1=5后所有图像块 (1，2)位置上的DCT系数概率分布直方图。从图4(a)中可以看出，经历离散余弦变换后，其AC系数在同一位置上的DCT系数直方图呈现出近似的拉普拉斯分布;而经历1次压缩量化后，其系数值就会呈现出周期性的缺失，如图4(b)所示。

　　设第一次压缩过程中未量化的DCT系数为D1，量化后的系数为D1′，量化步长为Q1，第二次量化后的DCT系数为D2，量化步长为Q2。根据JPEG压缩和解压过程可以得到：

　　D2=D1Q1Q1Q2

　　根据取整的性质可以推出：

　　Q1×(「Q2Q1(D2-1/2)-12)≤D1<

　　Q1×(Q2Q1(D2+1/2)」+12)

　　其中：・」为向下取整运算，「・为向上取整运算，[・]为四舍五入取整运算。设定：

　　L(D2)=Q1×(「Q2Q1(D2-1/2)-12)

　　R(D2)=Q1×(Q2Q1(D2+1/2)」+12)

　　因此我们可以用DCT系数直方图上的区间长度来描述经历双重压缩前后系数之间的变化关系如式(3)：

　　n(D2)=R(D2)-L(D2)=

　　Q1×Q2Q1(D2+1/2)」-「Q2Q1(D2-1/2)+1(3

　　根据式(3)可以看出，n(D2)是D1取值区间的长度，并且是一个周期函数，而它的周期性是DCT系数直方图出现周期性的根本原因。且周期为p=Q1gcd(Q1，Q2)，其中gcd(Q1，Q2)表示为Q1和Q2的最大公约数。

　　四、基于JPEG双量化效应的检测算法

　　4.1JPEG篡改图像双重压缩效应分析

　　当一个源图像经过篡改后又保存为JPEG格式的图像时，未被篡改的区域(背景区域)会经历了2次JPEG压缩，其DCT系数值会表现出双重压缩效应，然而篡改区域则只经历过1次JPEG压缩，该区域的DCT系数不会表现出双重压缩效应。下面分3种情况来说明：

　　1)当篡改区域(置换区域)的图像来自于非JPEG格式的图像时(比如，BMP、TIF格式的图像或者其他无损格式的图像时)，篡改来源图像本身就没有经历过JPEG压缩，当篡改图像最终保存为JPEG格式，篡改区域只经历了1次JPEG压缩，自然不会表现出双重压缩效应。

　　2)图像的篡改区域和背景区域的8×8分块位置一致的概率很低。在实际的篡改操作中往往会对图像中的某个特定区域进行篡改伪造。当篡改区域来自JPEG图像，假设背景区域的起始位置的坐标为(x1，y1)，篡改区域置换的起始位置为(x2，y2)，那么(|x2-x1|%8，|y2-y1|%8)=(0，0)的几率只有1/64，也就是说篡改区域表现出双重压缩效应的几率仅仅有1/64。

　　3)篡改者为了使图像看起来更加真实，往往会对置换区域的边缘进行模糊润饰、羽化、平滑等操作，此时这些边缘块就不会包含完整的8×8图像块，篡改区域相当于只经历了1次JPEG压缩。

　　4.2依据贝叶斯准则提取篡改块的特征值

　　本文通过建立经历2次压缩和1次压缩时图像像素分布的概率模型，利用贝叶斯估计的方法估计出待测图像中每一个像素点被篡改的概率。根据文献[10]得知，图像经过基于8×8块的离散余弦变换后，其所有块同一位置的交流(AC)系数的直方图分布可以用一个以λ为参数的近似拉普拉斯分布函数来表示。因此对于一个未经量化的DCT系数块的AC分量系数D1的一个系数x(i， j)服从以λ(i， j)为参数的拉普拉斯分布：

　　p(D1)=λ(i， j)2 exp(-λ(i， j)D1)(4)

　　其中：λ(i， j)为位于第i行(i∈0，1，2，…，7);第j列(j∈0，1，2，…，7)的DCT系数所对应的分布参数。

　　文献[11]直接使用λ=2/σ，σ为图像的标准差，此方案能准确地描述出第2次压缩因子大于第1次压缩因子时(QF2>QF1)的概率分布，然而当JPEG图像的压缩比越来越大时，也就是第2次压缩因子小于第一次压缩因子时(QF2　　本文则采用局部邻域法对当前子块的λ矩阵进行估计。图5显示的是本实验中采用的邻域算法，仅考虑当前块(图5中黑色区域部分)及其邻域(邻域的大小取24，图5中白色区域部分)。对位于图像边界位置的块，则只考虑其位于图像边界内的相邻块计算λ，得到与这些块相对应的λ矩阵。此方案能够在深度量化条件下(即QF2远小于QF1)也能达到较好的估计效果。

　　由式(3)可知，未篡改区域(背景区域)经过2次压缩后，区间 [L(D2)，R(D2)]内的原始DCT系数D1会被映射成同一个值D2，那么对于背景区域中AC分量系数D2的系数x(i， j)的概率可以由式(5)表示为：

　　p(D2H1)=∫R(D2)L(D2)p(D1)dD1=

　　F(R(D2))-F(L(D2))(5)

　　其中：H1代表图像块中未被篡改的像素，F(x)是累积分函数。通过第3章分析可知，当篡改区域的1次量化可以看成量化步长Q2=Q1的2次量化。因此篡改块的DCT系数为D2的概率可以用式(6)表示为：

　　p(D2H2)=F(R′(D2)-F(L′(D2))(6)

　　其中：R′(D2)=Q2(D2+1/2」+1/2)，L′(D2)=Q2(「D2-1/2-1/2)。

　　H2代表图像块中被篡改的像素。依据贝叶斯准则，则图像块中像素未被篡改的概率为：

　　p(H1D2)=p(D2H1)×p(H1)p(D2H1)×p(H1)+p(D2H2)×p(H2) (7)

　　其中，p(H1)和p(H2)分别为待检测图像的像素为正常和篡改时的先验概率，在本实验中取0.5，则：

　　p(H1D2)=p(D2H1)p(D2H1)+p(D2H2)(8

　　由于JPEG压缩是基于8×8像素块操作的，具有64个频率值(1个直流系数和63个交流系数)，文献[12]研究证明，经量化后少数AC系数已经能很好地表示出图像的纹理信息。式(8)是图像中单个像素为正常时的后验概率，在实验中将每一个8×8的小块内的63个AC分量(DC分量不满足拉普拉斯分布)的后验概率值相加，就可以得到图像块的后验概率值T。

　　T=∑Nj=1pj(9)

　　其中N=63，pi为每一个8×8像素块内的63个AC分量的后验概率值。　　

　　T作为每个8×8图像子块的检测特征值。在实验中如果待检测块是篡改块则特征值T接近于0，并且会集中在一个集中区域。然后通过设置阈值进行分类判断，就可以定位出图像的篡改区域。

　　在实验中，还需要知道篡改图像第1次压缩时的量化矩阵QT1和第2次压缩时的量化矩阵QT2。QT2可以用Matlab JPEG Toolbox[13]从待测JPEG图像头文件中提取，而QT1则需要进行估计。本实验中采用的是文献[3]的方法对QT1进行估计。

　　五、实验结果与分析

　　本文实验选取的图像为灰度图像，RGB图像可以转化为灰度图像，测试图像分辨率为256×256，实验平台为Matlab R2014a。为验证算法的有效性，从图像库中选取100幅图像进行测试，存储格式都为BMP格式。然后使用压缩因子QF1∈{60，65，70，75，80，85，90，95}分别对这100幅图像进行压缩，生成1次JPEG压缩图像，得到100×8幅JPEG图像。然后使用对其进行篡改操作，篡改图像分别以压缩因子QF2∈{60，65，70，75，80，85，90}重新压缩保存，则总共生成 5600 幅合成伪造图像。在实验中，检测率由式(10)计算得到：

　　ρ=1N∑Ni=0Si∩EiEi(10)

　　其中：Si为在图像i中检测出的篡改区域面积;Ei为真实的篡改区域面积;N为图像的总数，在此N=100。

　　使用本文算法进行检测，结果见表1，把本文算法明显优于文献[11]中的算法的结果用下划线标注。表2为文献[11]算法得到的检测率，可以看出，实验中没有进行QF2=QF1情况下的实验，因为根据第3章分析可知，这种情况下不满足双量化效应。当QF2>QF1时，两种算法都有较好的检测效果，并且当第2次压缩因子QF2远大于第1次压缩因子QF1时，量化步长Q1>Q2，此时直方图所表现出的周期特性非常明显，在JPEG篡改图像中其像素为正常的后验概率值p(H1u2)=0，并大大增强了对篡改块的检测效果。并且当QF2远大于QF1时，在直方图上的值会表现出周期性的缺失，其表现出的双重压缩特性会越来越明显，检测的效果也越好，如图6(a)、(b)所示，此时几乎能够完全检测出篡改区域;但是当QF2Q1，经过压缩后的图像的DCT系数的高频部分会出现大量的0值，此时直方图上的值会表现出周期性的波峰和波谷，直方图的周期性就不是很明显，未篡改区域的双重压缩特征表现不明显，但是在本实验中，通过采用局部邻域法对λ 估计方法，在深度量化的情况下(即QF2）。本实验中出现漏检和误检主要有以下3方面原因：1)当篡改图像的背景图像极为单一时，其DCT域系数统计特性不明显，此时采用本文检测方案时容易出现误判;2)对检测特征值T进行分类时，阈值设置不当，导致图像块被分类为篡改块;3)对λ矩阵的估计不准确导致对图像块篡改概率值计算错误，导致图像块被错误的认定为篡改块。

　　六、结语

　　本文利用了JPEG图像双重压缩对DCT系数分布产生的影响，提出了一种基于DCT系数双量化映射关系的检测算法。该算法能很好地检测出篡改图像中的篡改区域，对于QF1>QF2的情况下，检测率相对于其他传统算法有明显的提高。能否准确估计原始DCT系数分布在很大程度上影响了整个算法的准确性，但是本文所采用的近似的以λ为参数的拉普拉斯分布模型，能很好地体现出原始DCT系数分布，但是由于本文中忽略了直流(DC)系数，这将会对检测结果的准确性造成一定的影响，并且当来自于不同原始图像的背景和对象的原始压缩因子都相同情况下(即QF2=QF1时)的合成图像的检测，本文算法则不起作用。后面将针对此类JPEG合成篡改图像进行继续研究。

　　参考文献：

　　[1]LIE W， LIN T， CHENG S. Dual protection of JPEG images based on informed embedding and twostage watermark extraction techniques[J]. IEEE Transactions on Information Forensics and Security， 2006，1(3)：330-341.

　　[2]BIANCHI T， PIVA A. Image forgery localization via blockgrained analysis of JPEG artifacts[J]. IEEE Transactions on Information Forensics and Security， 2012，7(3)：1003-1017.

　　[3]LUKAS J， FRIDRICH J. Estimation of primary quantization matrix in double compressed JPEG images[C]// Proceedings of the 2003 Digital Forensic Research Workshop. Piscataway： IEEE， 2003：67-84.

　　[4]LIN T， CHANG M， CHEN Y. A passiveblind forgery detection scheme based on contentadaptive quantization table estimation[J]. IEEE Transactions on Circuits and Systems for Video Technology， 2011，21(4)：421-434.

　　[5]FARID H. 1 exposing digital forgeries from JPEG ghosts[J]. IEEE Transactions on Information Forensics and Security， 2009， 4(1)：154-160.

　　[6]HE J， LIN Z， WANG L， et al. Detecting doctored JPEG images via DCT coefficient analysis[C]// Proceedings of the 9th European Conference on Computer Vision， LNCS 3953. Berlin： Springer， 2006： 423-435.

　　[7]FRIDRICH J， SOUKAL D， LUKAS J. Detection of copymove forgery in digital images[C]// Proceedings of the 2003 Digital Forensic Research Workshop. Piscataway： IEEE， 2003：1-10.

　　[8]LI S， ZHANG X. Detection of composite images based on JPEG compression properties[J]. Journal of Applied Sciences， 2008， 26(3)：281-287.(李晟，张新鹏. 利用JPEG压缩特性的合成图像检测[J].应用科学学报，2008，26(3)：281-287.)

　　[9]YE S， SUN Q， CHANG E. Detecting digital image forgeries by measuring inconsistencies of blocking artifact[C]// Proceedings of the 2007 IEEE International Conference on Multimedia and Expo. Piscataway： IEEE， 2007：12-15.

　　[10]REININGER R， GIBSON J. Distributions of the twodimensional DCT coefficients for images[J]. IEEE Transactions on Communications， 1983，31(6)：835-839.

　　[11]WANG Q， ZHANG R. Exposing digital image forgeries based on double quantization mapping relation of DCT coefficient[J]. Journal of Electronics and Information Technology， 2014，36(9)：2068-2074.(王青，张荣. 基于DCT系数双量化映射关系的图像盲取证算法[J]. 电子与信息学报， 2014， 36(9)：2068-2074.) 　　

　　[12]ICHIGAYA A， KUROZUMI M， HARA N， et al. A method of estimating coding PSNR using quantized DCT coefficients[J]. IEEE Transactions on Circuits and Systems for Video Technology， 2006， 16(2)：251-259.

　　[13]DDE Lab at Binghamton University. Matlab JPEG toolbox [EB/OL].[20150703].http：//dde.binghamton.edu/download/feature_extractors/.

关键字：其它

上一篇:简述养殖场稻壳最佳消毒方案筛选

下一篇:关于宝鸡艺术品网络交易服务平台构建研究

浅谈基于JPEG双量化效应的图像盲取证

信息筛选

行业资讯月点击排行

展会信息月点击排行

招商信息月点击排行