大家好,欢迎来到我们人脸表情识别的专栏,这是专栏的第一篇文章,今天我们讨论的问题是关于表情识别的基本概念和数据集。
作者 | Menpinland
编辑 | 言有三
在较早之前,有三AI已经有一篇《人脸表情识别研究》的文章,里面已经对早期的人脸表情相关的内容做了一个较为详细的综述。但最近几年,由于深度学习技术的发展,以及越来越多大规模人脸表情识别数据集的开源,人脸表情识别的相关研究也发生了比较多的变化。本专栏将在前面综述的基础上,进一步介绍当前人脸表情识别的研究现状,同时跟踪该领域最新的研究成果。欢迎对此方向感兴趣或正在从事该领域相关研究的萌新、大佬提供意见和建议,一起学习,共同进步。
1 基本概念
有关表情的相关概述以及人脸表情识别的研究背景,可参考有三AI之前的综述:《【 》,本文则不再赘述。
不过对于人脸表情识别的概念,此处进行补充。本专栏讨论的内容是通过计算机视觉技术识别人的面部表情以理解人的情绪状态,即人脸表情识别(Facial Expression Recognition)。但在笔者刚入坑查找相关文献的时候,发现有许多类似的词语,比如中文里面的“情绪识别”、”感情识别“,英文里面的”emotion“、”sentiment“、”affect“……其实之所以有这么多相似词语,主要是因为不同领域表达方式及使用习惯不同。研究及理解情绪人的情绪状态是一个很大的命题,除了面部表情,利用生理信号(如脑电信号、心跳、脉搏等)以及自然语言也可以理解人的情绪状态。在基于生理信号的情绪研究中,“emotion”、“affect”是比较常见的字眼;而在基于NLP的情绪研究中,“sentiment”则出现得更为频繁。也有相关学者对情绪识别领域里相似关键词的使用做了专门的研究 [1],有兴趣的读者可自行查看。
2 研究现状
在早期的人脸表情识别的研究中,大部分常用的数据集都是让研究人员或者专业的演员在实验室条件下(laboratory-controlled)进行“摆拍”获得的。但通过这样的数据集训练得到的算法模型在实际使用的时候很容易出现较大的偏差。最主要的原因在于这些表情数据都是在比较理想的实验室条件下得到的。跟其他人脸相关的任务一样,现实当中人脸会出现遮挡、头部姿态变换以及光照变换等更复杂的情况,除此之外,人在自然条件下的表情也不会有在实验室条件下通过“摆拍”得到的表情那么明显。因此,在理想条件下训练得到的算法模型面对现实更苛刻的条件,识别率自然大大下降。针对上述问题,越来越多自然环境下(in the wild)自发式的表情数据集也逐步开源,同时相关算法的研究也越来越偏向于去提升人脸表情识别在更具挑战性的现实条件下的鲁棒性。
图1|人脸表情识别存在的遮挡、头部姿态变换、光照变换问题
在人脸表情识别中,按照数据格式、表情定义类型的不同,可划分为更加细致的方向。按照数据格式划分,可分为基于图片的人脸表情识别以及基于(音)视频的人脸表情识别;按照表情定义类型的不同,可划分为基于离散标签的人脸表情识别,基于连续模型的人脸表情识别以及基于人脸活动单元系统(Facial Action Coding System, FACS)的人脸表情识别。基于离散标签的人脸表情识别就是将表情定义为六种基本的情绪:开心、悲伤、惊讶、害怕、厌恶、生气(通常七类多个中立,八类多个轻蔑),用分类的方法完成识别的任务,这也是目前大部分人脸表情识别研究;基于连续模型的人脸表情识别,就是按照心理学的效价-唤醒环形模型(Valence–Arousal circumplex model)[2] 将表情定义为两个连续的数值,用回归的方法完成人脸表情预测的任务;基于FACS的人脸表情识别,就是将人脸划分为多个活动单元(action unit, AU),将表情识别问题转换为判断哪几个活动单元“活跃(active)”的问题。以上各种分类都会在本专栏有所涉及。首先先介绍基于图片的人脸表情识别(没特别说明,后面相关介绍,人脸表情定义类型都默认离散标签)。
3 基于图片的人脸表情数据集
在介绍相关算法之前,我们首先去了解在基于图片的人脸表情识别使用得比较频繁的几个数据集:
1.The Japanese Female Facial Expression (JAFFE) Dataset [3]
链接:https://zenodo.org/record/3451524#.X2MFNG4zZPY
—数据采集方式:10位日本女性在实验室条件下摆拍指定表情获得
—表情标签:开心、悲伤、惊讶、害怕、厌恶、生气、中立
—数据集大小:共213张图片,每个人每种表情大概3-4张图片,每张图片分辨率256*256像素
图2|JAFFE中部分图片示例
2.MMI Facial Expression Database [4,5]
链接:https://www.mmifacedb.eu/
—数据采集方式:32位参与者在实验室条件下摆拍指定表情获得
—表情标签:开心、悲伤、惊讶、害怕、厌恶、生气、中立;AU;时序状态(表情开始帧–>峰值帧–>结束帧,onset–>apex–>offset)
—数据集大小:2900个视频以及740张图片,分辨率 720*576像素
图3|MMI中部分图片示例
3.Extended Cohn-Kanade Dataset (CK+) [6]
链接:http://www.pitt.edu/~emotion/ck-spread.htm
—数据采集方式:123位参与者在实验室条件下摆拍指定表情获得
—表情标签:开心、悲伤、惊讶、害怕、厌恶、生气、中立、轻蔑;AU
—数据集大小:593个视频序列,分辨率640*490或者640*480,基于图片的人脸表情识别中常常取最后几帧作为样本
图4|CK+中部分图片示例
4.FER2013 [7]
链接:https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/overview
—数据采集方式:通过Google搜索引擎获取(这种即被定义为自然状态下自发式的表情数据)
—表情标签:开心、悲伤、惊讶、害怕、厌恶、生气、中立
—数据集大小:训练集含28709张图片, 验证集含3589张图片,测试集含3589张图片,分辨率48*48,数据及标签存放在csv文件里
图5|FER2013中部分图片示例
5.Real-world Affective Faces Database (RAF-DB) [8]
链接:http://www.whdeng.cn/RAF/model1.html
—数据采集方式:采集自互联网
—表情标签:开心、悲伤、惊讶、害怕、厌恶、生气、中立;复合情绪(可参考图6中的例子理解)
—数据集大小:总共29672张图片
图6|RAF-DB中部分图片示例
6.AffectNet [9]
链接:http://mohammadmahoor.com/affectnet/
—数据采集方式:采集自互联网
—表情标签:开心、悲伤、惊讶、害怕、厌恶、生气、中立;二维连续模型
—数据集大小:总计1800000张图片,其中450000是提供离散以及连续的标签,是目前自然条件下最大的表情识别图片数据集,也是提供二维连续模型标签中最大的数据集
图7|AffectNet中部分图片示例
4 参考文献
[1] Munezero M, Montero C S, Sutinen E, et al. Are they different? Affect, feeling, emotion, sentiment, and opinion detection in text[J]. IEEE transactions on affective computing, 2014, 5(2): 101-111.
[2] Russell J A. A circumplex model of affect[J]. Journal of personality and social psychology, 1980, 39(6): 1161.
[3] Lyons M, Akamatsu S, Kamachi M, et al. Coding facial expressions with gabor wavelets[C]//Proceedings Third IEEE international conference on automatic face and gesture recognition. IEEE, 1998: 200-205.
[4] Valstar M, Pantic M. Induced disgust, happiness and surprise: an addition to the mmi facial expression database[C]//Proc. 3rd Intern. Workshop on EMOTION (satellite of LREC): Corpora for Research on Emotion and Affect. 2010: 65.
[5] Pantic M, Valstar M, Rademaker R, et al. Web-based database for facial expression analysis[C]//2005 IEEE international conference on multimedia and Expo. IEEE, 2005: 5 pp.
[6] Lucey P, Cohn J F, Kanade T, et al. The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression[C]//2010 ieee computer society conference on computer vision and pattern recognition-workshops. IEEE, 2010: 94-101.
[7] Goodfellow I J, Erhan D, Carrier P L, et al. Challenges in representation learning: A report on three machine learning contests[C]//International conference on neural information processing. Springer, Berlin, Heidelberg, 2013: 117-124.
[8] Li S, Deng W, Du J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2852-2861.
[9] Mollahosseini A, Hasani B, Mahoor M H. Affectnet: A database for facial expression, valence, and arousal computing in the wild[J]. IEEE Transactions on Affective Computing, 2017, 10(1): 18-31.
总结
本文首先介绍了人脸表情识别的相关概念以及研究现状,然后了解了目前基于图片的人脸表情识别领域最常用的几个数据集。后面的1-2篇专栏将会围绕近几年基于图片的人脸表情识别论文介绍相关的预处理以及识别的方法。
如果想长期在有三AI社区学习人脸相关的技术,可以参考有三AI秋季划人脸图像小组,脸图像小组需要掌握与人脸相关的内容,学习的东西包括8大方向:人脸检测,人脸关键点检测,人脸识别,人脸属性分析,人脸美颜,人脸编辑与风格化,三维人脸重建。了解详细请阅读以下文章:
「CV秋季划」人脸算法那么多,如何循序渐进地学习好?
最新评论