您现在的位置:中国传动网  >  技术频道首页  >  技术百科  >  基于非对称均方误差的人体姿态估计方法

基于非对称均方误差的人体姿态估计方法

2019年05月15日 17:31:59 供稿:黄玉程 孟凡阳

摘要:在用于人体姿态估计的深度神经网络中,损失函数通常使用均方误差(MeanSquearError,MSE)。MSE虽然计算简单,但无法确保与预测结果一致性,即神经网络输出的预测热图不同,计算得到的MSE相同。针对该问题,本文基于MSE提出非对称均方误差(AsymmetricMeanSquareError,AMSE)损失函数,对预测热图添加惩罚项,对较大的预测输出值进行惩罚,保证MSE与预测结果的一致性。在COCOval2017数据集上的实验结果表明,本文提出的AMSE预测效果优于MSE。

关键词:人体姿态估计;均方误差;非对称均方误差

1.引言

多人人体姿态估计作为众多计算机视觉应用,例如行为识别、人机交互的基本挑战之一[1-3],其主要目的是为了识别和定位图片中不同人体的关键点。

自从Toshev等人将深度学习应用在人体姿态估计任务之后[4],人体姿态估计方法开始逐步由传统方法向深度学习方向转变[5-8],Toshev等人通过神经网络直接回归出人体关键点坐标,Tompson等人使用多分辨率图片作为输入,提取图片多尺度特征,并用于人体关键点热图预测[9]。当前人体姿态估计框架分为两大类,第一种为基于两阶段的方法[10-12],首先将图片中每人的框架的找出,再对各框架中的人体进行关键点定位,第二种为基于各关键点的方法[13-15],首先将图片中所有的关键点定位,再对定位后的关键点进行组合得到多人关键点。通常基于两阶段的方法效果更好,因为该方法能更好的利用图片的全局语义信息。

当前最好的人体姿态估计方法都致力于新型网络模型的研究,例如CPN和SBN,

CPN通过将多层级特征整合为金字塔网络的形式解决困难关键点的检测问题,SBN提供简单高效的人体姿态估计方法,只对ResNet的最后一层添加反卷积层便取得了较好的结果[16]。这些方法均使用热图的方法进行预测,并通过MSE计算预测热图与标注热图之间的损失函数值,但使用MSE作为损失函数存在先天的不足,首先,不同预测热图与标注热图间的MSE值与mAP度量存在不一致问题,这意味着具有相同MSE的两张预测热图会产生不同的错误率,我们称之为不一致问题。为了解决以上问题,本文提出非对称均方误差(AMSE),通过指引模型选择更好的输出来保持一致性。实验表明,在只增加少许计算量的情况下,使用AMSE训练的模型效果明显优于MSE训练的模型。

综上,本文的主要贡献有以下几点:

分析在人体姿态估计任务中,使用预测热图和标注热图计算MSE值所产生的不一致问题。

提出非对称均方误差(AMSE)作为改进损失函数,解决不一致问题。

2.非对称均方误差

2.1均方误差

基于热图表示的人体姿态估计方法,以20190424 基于非对称均方误差的人体姿态估计方法 柳伟2063.png 大小的彩图作为输入,输出为一组表示人体部位定位的2D热图,如图1所示:

20190424 基于非对称均方误差的人体姿态估计方法 柳伟2126.png 

图12D热图

其中S=(S1,S2,SJ)表示J张热图,每张图代表一个关键点,SjRWH热图间的MSE值计算公式定义为:

20190424 基于非对称均方误差的人体姿态估计方法 柳伟2235.png(1)

其中M=JWH,GjRWH示第j关键点的标注热图,热图是在关键点位置施加高斯斑所产生的图片。对于第j个预测关键点的热图Sj,最终的关键点坐标Kj由热图中最大值20190424 基于非对称均方误差的人体姿态估计方法 柳伟2327.png 的位置确定:

20190424 基于非对称均方误差的人体姿态估计方法 柳伟2356.png  (2)

目前最好的人体姿态估计方法均采用MSE作为损失函数[17],但是MSE却无法确保预测结果的一致性,在模型预测热图具有相同的MSE值的情况下,会出现不同的预测结果,该问题称之为不一致问题。

2.2问题分析

对于给定标注热图G0和MSE值20190424 基于非对称均方误差的人体姿态估计方法 柳伟2484.png ,存在多个预测热图S*满足以下公式:

20190424 基于非对称均方误差的人体姿态估计方法 柳伟2525.png  (3)

不同的热图S*预测结果不同,却得到了相同的MSE值。为了简化这一问题,假设S*满足以下条件:

20190424 基于非对称均方误差的人体姿态估计方法 柳伟2601.png  (4)

如公式(4)所示,对预测热图上的每个点而言,只存在两种情况,比目标值大20190424 基于非对称均方误差的人体姿态估计方法 柳伟2644.png或小20190424 基于非对称均方误差的人体姿态估计方法 柳伟2647.png。以一维热图为例,假设标注热图为[0.5,1,0.5]T,则存在8种满足公式(4)的预测热图存在,如图2所示,其中黑体字表示比相应位置的目标值大0.5,非黑体字表示比相应位置的目标值小0.5。

20190424 基于非对称均方误差的人体姿态估计方法 柳伟2745.png 

图2具有相同MSE的预测热图

由图2可知,在相同MSE值的情况下,(a)-(e)和(f)-(h)的预测热图经过公式(2)的求最值操作后,将产生一个像素位置的误差导致最终结果不同,这便是MSE的不一致问题。实际上,不一致问题主要由公式(2)的操作产生,因为该操作对预测热图的绝对值不敏感,而预测热图内各值的相对顺序却对预测一致性十分重要,只有当预测热图内各值的相对顺序和标注热图相同,才能通过公式(2)得到一致的结果。使用MSE的目的是为了缩小预测和目标间的绝对差值,由此导致的与公式(2)的不匹配现象,产生了不一致问题。

针对该问题,图像处理领域提出了结构相似性指标SSIM[18],在MSE相同的情况下,通过提高图片的结构相似性使人眼视觉效果得到改善。在人体姿态估计任务中,标注热图由关键点部位施加的高斯斑产生,每张6464大小的标注热图仅在高斯斑的生成部分有值存在,所以,标注热图不仅缺少丰富的边缘纹理信息,还非常的稀疏,使用SSIM并不合适,若增大高斯斑的范围使纹理更明显则又会导致关键点的定位不准确。

因此MSE仍为当前最广泛使用的损失函数之一,针对存在的问题,本文提出了非对称均方误差(AMSE)进行改善。

2.3非对称均方误差

因为图2内各热图MSE值相同,所以MSE无法区分各热图的不同,但是各预测热图却会有不同的预测结果。由图2(a),图2(b)可知,当预测热图各值均大于或小于标注热图的值时,预测效果最好,因此,迫使模型输出类似于图2(a),图2(b)的值,可能使模型的效果得到提升。通过将模型输出值的平方加在原始MSE损失函数上,能引导模型输出类似于图2(b)的更小的预测值,公式定义如下:

20190424 基于非对称均方误差的人体姿态估计方法 柳伟3514.png  (5)

式中M=JWH,GjRWH,SjRWH,Gj和Sj分别表示第j个关键点的标注热图和预测热图。当20190424 基于非对称均方误差的人体姿态估计方法 柳伟3575.png=0.01时,该损失函数称为正则化均方误差(RMSE),RMSE通过对预测热图添加L2惩罚的方式,对预测热图中较大的值进行惩罚。但是由于平方项的存在,即使预测值与目标值相同,也无法使损失函数等于0,并始终对预测值进行惩罚。RMSE在目标值为1,0.5,0.25的曲线图如图3所示,图中RMSE的取得最小值的点并不等于目标值,这会导致较差的预测结果,然而,RMSE通过对较大预测值增加惩罚项的方法的确使模型偏向输出较小的值,这对预测表现是有利的。

 20190424 基于非对称均方误差的人体姿态估计方法 柳伟3799.png

图3RMSE预测曲线图

如果损失函数不仅能在到达目标值时降至最小,还能对较大的预测值施加更多的惩罚,那么该损失函数就能更好的引导模型偏向输出较小的值并避免了RMSE的缺陷。出于此目的,我们提出非对称性均方误差(AMSE),其定义如下:

20190424 基于非对称均方误差的人体姿态估计方法 柳伟3978.png  (6)

式中Wj是由模型生成的常数项矩阵并当做常数进行反向传播,使用Wj的目的是为了使AMSE在等于目标值时最小。当Wj等于20190424 基于非对称均方误差的人体姿态估计方法 柳伟4044.png时,公式(6)为以下形式:

20190424 基于非对称均方误差的人体姿态估计方法 柳伟4080.png  (7)

虽然公式(7)和MSE相同,在预测值等于目标值时达到最小,但是它却能对较大预测的输出值进行惩罚,因此Wj等于20190424 基于非对称均方误差的人体姿态估计方法 柳伟4142.png 是一个可行的选项,AMSE在目标值为1,0.5,0.25的曲线图如图4所示。

20190424 基于非对称均方误差的人体姿态估计方法 柳伟4182.png 

图4AMSE预测曲线图

由图4可知,AMSE预测曲具有线非对称性,并在预测值等于目标值时取最小值。实验表明,Wj并不需要等于20190424 基于非对称均方误差的人体姿态估计方法 柳伟4280.png ,不同形式的Wj也同样有效。

3.实验与分析

3.1实验数据与模型

本实验将在COCO关键点挑战数据集上进行[19],对不受控环境下的多人人体关键点坐标进行预测,该数据集有超过20万张图片和25万个标注人体实例,其中有15万的实例已公开可作为验证集和训练集。与文献[10]相同,实验只通过COCOtrain2017数据集进行训练并不使用额外数据,测试实验将在val2017数据集上进行。实验完成后,通过目标关键点相似度(OKS)进行度量,与目标检测指标IoU的作用相似,通过人体尺度标准化后的预测点和目标点的距离,将用于计算OKS。

虽然当前神经网络的结构和实验的复杂性不断增加,但SBN作为当前最好的人体姿态估计方法之一却简单有效,因此拟采用SBN作为实验基准进行AMSE效果验证。ResNet作为图片特征提取的常用骨干网络之一,SBN只需在ResNet的最后一层添加若干反卷积层。与SBN相同,我们将在ResNet最后一层添加三层反卷积层并使用批归一化和ReLU激活函数,反卷积层有256个44滤波器并将步幅设为2,最后通过11卷积调整输出通道,即可得到预测热图,标注热图由添加在关键点位置的2D高斯斑产生。

3.2模型训练与测试

实验骨干模型ResNet的初始化由ImageNet分类任务上

的预训练完成,训练时,标注人体边框将被锁定至一定比例,通过改变边框长度将比例固定为4比3,最后从图片中裁剪下固定比例的标注边框并缩放至和SBN实验相同的256192分辨率以进行对比。实验数据增强包括图片翻转、30%的图片尺度变换和40°的图片旋转,模型训练使用4块GPU并训练140代,训练学习率设为0.001并在90代和120代降低至0.0001和0.00001,批训练大小设为128,优化器为Adam[20],ResNet-50和ResNet-101的模型实验均由Pytorch完成,除特别声明,使用ResNet-50为默认骨干模型。

与文献[10,11]相似,实验采用两阶段式并使用预训练mask-RCNN做第一阶段的单人人体框架检测[21],检测器在COCOval2017上的准确率为56.4mAP。与常规方法相同[22],对原始和翻转图像的预测热图求平均后,即可用于关键点位置的预测,通过对最高响应到次高响应的方向上施加四分之一的偏移量,即可得到最终的关键点位置。

3.3实验结果与分析

不同超参数的实验结果如表1所示,当β=0,AMSE退化成MSE,该结果可作为比较的基准结果。当β=0.01时,实验结果高于基准结果0.6个点达到73.0AP。实验同时表明,AMSE对超参数β的选值并不敏感,当取值范围为0.01到0.1之间时,都可取得较好的结果,如未特别声明,设β=0.01为实验默认值。

AMSE和MSE在不同骨干网络下的比较如表2所示,gt-box表示是否使用标注框架,AMSE在不同骨干网络下,不论是否使用标注框架,均能取得优于MSE的测试结果,此外,若测试时使用标注框架,AMSE在使用ResNet-101作为骨干网络的情况下可使实验结果提升更多。结果表明,AMSE能更有效的激发模型的性能。相较于MSE,当骨干网络为ResNet-50时,在使用标注框架和不使用标注框架的情况下,AMSE分别能使实验结果提升0.6和0.2个点,该结果表明,在提供准确的标注框架的情况下测试AMSE,能使实验效果提升更多。

表3分别将本方法和Hourglass、CPN、SBN进行对比。SBN的人体框架检测器AP为56.4与本方法相同,CPN和Hourglass的人体框架检测器AP为55.3,OHKM表示是否使用难例挖掘[23]。本实验的SBN效果与公开代码效果一致,因此可直接与SBN论文中列出的结果相比较。表3可知,虽然SBN实验结果优于Hourglass和CPN,但是AMSE仍然能使最终结果提高0.2和0.4个点,而使用AMSE作为损失函数的代价仅为训练时增加的少许计算量。AMSE在当前最好的轻量级方法SBN上取得了较好的效果,该方法也应适用于其他效果一般的人体姿态估计方法,预测图示例如图5所示。

20190424 基于非对称均方误差的人体姿态估计方法 柳伟6021.png 

图5预测热图示例

表1不同超参数的实验结果

0.1.jpg 

表2不同骨干下的实验结果

0.2.jpg 

表3不同模型下的实验结果

 0.3.jpg

4.结论

本论文介绍了人体姿态估计任务中,在计算预测热图与标注热图间的MSE值时所存在的不一致问题,并针对该问题进行了详细的分析。为了解决该问题,本文提出了一种新型有效的非对称均方误差(AMSE)损失函数,在MSE的基础上对预测热图添加惩罚项,进而解决了该问题。在COCOval2017数据集的实验结果表明,使用标注框架数据进行模型测试能使AMSM的最终效果提高0.5个点左右。虽然本方法提出于人体姿态估计任务当中,但是也应同样适用于任何使用MSE作为损失函数且对相对值的顺序敏感的任务当中。

参考文献(References):

0.4.jpg

0.5.jpg


本文链接:/tech/detail.aspx?id=36936

中国传动网

官方微信

扫一扫,中国传动网信息随手掌控

直驱与传动

官方微信

扫一扫,直驱与传动信息随手掌控

伺服与运动控制

官方微信

扫一扫,伺服与运动控制信息随手掌控

联系我们

广告联系:0755-82048561
展会合作:0755-83736589
杂志投稿:0755-82048562

网站简介|会员服务|联系方式|帮助信息|版权信息|网站地图|友情链接|法律支持|意见反馈

版权所有 2006-2016 中国传动网(ChuanDong.com)

  • 经营许可证
    粤B2-20150019

  • 粤ICP备
    14004826号

  • 不良信息
    举报中心

  • 网络110
    报警服务

网站客服热线

0755-82949061

网站问题客服

2737591964