本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
1 新智元报道
报道:闻菲
【新智元导读】被业界称为人脸识别“世界杯”的微软百万名人识别竞赛 MS-Celeb-1M 冠军团队技术分享。Panasonic-NUS 合作团队认为,竞赛最大的难点是如何在有限的时间内高效地对海量数据(百万级别的类别,千万级别的数量)进行收集、清理和训练,其中数据清洗工作至关重要。美国东北大学 SmileLab 实验室团队表示,实际应用中的人脸识别系统,往往需要用到“分治法”的思想,针对不同的情况进行处理,最后进行融合,往往比使用一个单一的系统要有效、准确、鲁棒。
业界公认的人脸识别“世界杯”——微软百万名人识别竞赛 MS-Celeb-1M 结果日前公布。MS-Celeb-1M 的目标是识别百万人脸,是计算机视觉内最大规模的分类问题,并且竞赛的输入是一张图片,输出是一个人名,十分贴近现实中人脸识别的应用场景,有助于开发现实中需要的人脸识别系统。
新智元对竞赛冠军团队成员进行了采访,Panasonic-新加坡国立大学合作团队和美国东北大学各自分享了他们的技术思路和参赛经验。
百万名人识别竞赛:数据收集、清洗、训练至关重要
MS-Celeb-1M 百万名人识别有两个子命题,一个是百万名人识别。其中,参赛者需要根据(但不限于)挑战赛提供的数据集作为训练数据,开发图像识别系统,识别混在百万人中的 1000 个人。
这个题目的关键在于,参赛者并不知道具体要识别哪 1000 人。因此,为了实现尽可能高的召回率和准确度,模型需要覆盖尽可能多的人乃至全部百万规模。此外,MS-Celeb-1M 测试数据集经过了微软研究人员非常仔细的人工标注,保证了非常高的准确度,对衡量高性能模型以及模型在几乎 100% 的准确率下的表现(recall@high precision)十分有效。
Panasonic-新加坡国立大学(NUS)合作团队获得了百万名人识别竞赛(无限制类,也就是参赛团队可以自由使用外部数据)的冠军。成员徐炎向新智元分享了他们团队的获胜经验。
冠军队伍:Panasonic-NUS(新加坡松下研究院—新加坡国立大学)
成员:徐炎(Panasonic)、程禹(Panasonic)、赵健(NUS)、王哲灿(NUS)、熊霖(Panasonic)、Karlelar Jayashree(Panasonic)、Sugiri(Panasonic)、申省梅(Panasonic)、冯佳时(NUS)
新智元:为什么要参加微软百万名人识别竞赛?
Panasonic-NUS:微软今年举办了两场比赛,一个是与去年一样的百万名人识别(challenge 1, recognizing one million celebrities)比赛,另外一个是“小样本学习”(challenge 2, low-shot leaning)比赛。其中,百万名人识别是一个非常具有挑战性的比赛,参赛者需要在众多人脸图片里精准归类 100 万名人,是大规模人脸识别的一种应用。
我们参加这次比赛也是希望藉此次比赛积累经验,以在未来应用中做出更加精准高效的、具有百万类别识别能力的人脸识别系统。新加坡松下研究院成立于 1990 年,致力于多媒体和网络,机器学习,人工智能、计算机视觉及 3D 技术算法的软硬件的研发。在申省梅的带领下,我们在人工智能特别是人脸识别领域积累了多年的技术和大量的数据。经过充分的准备和与其他队伍紧张的角逐下,我们 Panasonic-NUS 团队最终在微软的百万名人识别比赛(challenge 1)的两项指标(random set, hard set)上都取得了第一名的好成绩,而且较去年最好的成绩有了大幅度的提高。
新智元:百万名人识别难点在哪里?参赛得到的最大启发是什么?
Panasonic-NUS:百万名人识别竞赛最大的难点,我们认为是在有限的时间内如何高效地对海量数据(百万级别的类别,千万级别的数量)进行收集、清理和训练。比如说,怎样有效获取到高质量的数据;如何在保证数据“数量”的前提下,让数据的“质量”额得到提升;再有获取和处理这些海量数据后,怎样合理高效的训练它们,是否有充足的硬件(GPU)和高效的软件(模型)来进行支撑。
微软百万名人识别竞赛对训练数据的”质量”和“数量”要求都非常高。“质量”指的是在保证数据规模一定的情况下,尽可能的去降低训练数据的噪声。由于深度网络的训练效果高度依赖训练数据的质量,所以数据清洗工作至关重要。但是主办方给出的 10 万人原始训练数据包含大量的噪音,比如,一个人里面出现了多个人的脸部图片,甚至于不同性别,这会大大影响深度网络的训练精度。“数量”指的是收集尽可能多的额外数据去覆盖到整个 100 万名人。主办方提供的 10 万名人的训练数据只占百万名人的 10%,但是允许参赛队伍去收集余下 90 万名人数据用来训练。
在参赛的过程中,我们有超过一半的时间在数据清理和收集工作之上,旨在为深度网络的训练构建出一个良好的基础和进一步的提升算法性能的空间。在可靠和大量的数据的前提下,训练出的模型才会更加优质。另外,我们清洗的数据不止用到了challenge 1,也为 challenge 2 的工作提供了很大帮助。因此,高效收集和处理海量训练的数据,是我们在这次比赛中取得好成绩的关键。
新智元:能介绍一下你们获胜方案的思路设计和方法吗?
Panasonic-NUS:微软百万名人识别竞赛主要考察了两个问题,一个是训练的模型如何能够覆盖一百万人的规模。另外一个是,训练的模型要尽可能高的准确度去识别出一百万人的类别。比赛规定,测试数据集中 75% 是高频的 10 万名人,出现在主办方提供的训练数据集中,而剩下的 25% 是其他 90 万名人,主办方没有提供 90 万名人的数据,需要自己下载。针对这两个问题,我们设计了如下策略:
针对重点的 10 万名人,在保证“质量”的前提下,我们采取多分类器融合的办法,训练了 25 个,每个几万类别的深度网络分类器进行融合。对于每个网络训练,我们对损失函数进行优化,并采取增强方式进行训练。这样多模型多层次的分类器能够输出更有区分度的预测结果。另外,我们结合和多分类与特征检索的结果,进一步的提升了 10 万名人的分类准确度。
针对剩下的 90 万人,我们收集了约 60 万人的数据。该过程中我们依靠良好的特征提取网络和有效的数据增强方法,得出模型对 90 万人的预测结果。结合两种方法之后,我们最终在微软的百万名人识别竞赛(challenge 1)的两个指标(random set, hard set)都取得了第一名的成绩,较去年最好的水平有了大幅度提升。
新智元:获奖的算法模型的应用方向会在哪些方面?
Panasonic-NUS:通过这次比赛,我们的算法模型在百万人的测试数据上达到较高的准确度。我们认为其应用前景很广泛,比如安防领域,人机交互,智能媒体等,只要有用到人脸识别的地方。我们融合了众多模型以获得较好结果,若要落地应用,应当考虑将速度优化。
新智元:人脸识别目前还存在哪些问题?接下来这一领域会有什么发展?
Panasonic-NUS:如今在普通(正脸,光照良好,姿势端正)条件下,深度学习甚至能表现出比人类更加精准的识别能力。然而其难点在于对大角度,大表情,低分辨率,光线暗环境下的识别率不佳。我们期待未来的人脸识别系统能结合更多技术,在严苛条件下的人脸识别任务中取得突破。
新智元:祝贺你们获得冠军,最后分享一下获胜感想吧。
Panasonic-NUS:我们这次在微软百万名人识别两项竞赛(Challenge 1, Challenge 2)上均取得了第一名的成绩,这个结果离不开我们长期在 AI 领域的积累以及与 NUS 两个团队的齐心合作和全力付出,也离不开松下新加坡研究院给我们团队提供的 GPU 集群,包括最新的 NVIDIA-DGX,使大数据下的模型训练快速化,还有我们的数据标注团队为数据收集和处理也发挥了很大作用。同时,我们也要感谢在整个过程中中科院自动化所兴军亮老师的指导和帮助。最后,经历了这次比赛,我们也总结了很多经验教训,希望在下一次比赛中可以取得更好的成绩,也希望基于相同技术的产品能够快速落地。
单一训练样本名人识别:构建实际应用的系统讲究“分治法”
MS-Celeb-IM 百万名人识别竞赛还设有“小样本学习”(lowshot learning)环节,这里特别关注当有些人的训练数据很少的时候,怎么把模型效果做上去。在这里,参赛队伍需要从 2 万 1000 人中识别 1000 人。但是,这 1000 人都每个人都只有 1 张用于训练的图片。
在单一训练样本识别竞赛(数据受限)环节中,来自美国东北大学 SmileLab 实验室的团队获得第一。新智元对成员吴岳进行了采访。
冠军队伍:美国东北大学 SmileLab 实验室
团队成员:吴岳,王舒旸,刘洪甫,李俊,Raymond Fu(全部来自于美国东北大学 SmileLab 实验室)
新智元:为什么参加微软百万名人识别竞赛?
美国东北大学 SmileLab 实验室:首先,微软百万名人识别竞赛是基于目前可以公开获取的最大的人脸识别数据库 MS-Celeb-1M,拥有将近 10.1 万张人脸的训练数据,竞赛中包含的大规模人脸识别竞赛与小样本学习竞赛都是在实际应用中非常常见,并且应用十分广泛的问题。参加此次竞赛,可以跟其他参赛队伍一起探究在人脸识别问题上的最新技术,何乐而不为?
此次竞赛依托于依托于今年 10 月在意大利威尼斯举办的计算机视觉领域三大顶级会议之一的国际计算机视觉大会(ICCV 2017),这么高的平台也是吸引我们参加比赛的原因。此外,作为本次活动的主办方,微软研究院在以往也举办过类似的大规模图像检索与图像识别竞赛,对学术界和工业界都产生了深远的影响。
此次我们美国东北大学 SmileLab 队伍,并不是第一次参见由微软研究院举办的比赛,我们在去年就参加了上一届微软百万名人识别竞赛,并且取得了 Random Set 第一名,Hard Set 第二名的成绩。今年继续参加,希望可以促进人脸识别领域在大规模应用以及最新的小样本学习问题的进一步发展。我们选择参加本届微软百万名人识别竞赛,是希望可以与学术界和工业界一起促进大规模人脸识别技术的发展与应用。
美国东北大学 SmileLab 实验室由 Yun Raymond Fu 教授创建并领军,是目前在机器学习、数据挖掘、计算机视觉领域的顶级团队之一。Raymond Fu 博士是计算智能,模式识别,机器视觉领域的国际知名青科学家。在计算机信息科学领域的顶级期刊会议上发表论文超过 280 篇,包括著作 7 本。自 2008 年来国际论文索引总计超过 7000 次,H-index: 42,i10-index : 113,曾 7 次获得 IEEE, IAPR, SPIE, SIAM 国际会议最佳论文奖,并 7 次获得美国和国际 NAE, ONR, ARO, IEEE, INNS, UIUC, Grainger Foundation 青年科学家奖(Young Investigator Award or Early Career Award)。他是国际模式识别学会会士(IAPR Fellow)。
新智元:从技术角度讲,参赛获得的最大启发是什么?
美国东北大学 SmileLab 实验室:此次比赛最大的启发就是实际应用中的人脸识别系统,往往需要用到“分治法”的思想,有时候一个统一的系统往往不能把每个特殊情况都考虑到,这个时候采用分而治之的策略,将问题进行分解,针对不同的情况进行处理,最后进行融合,往往比使用一个单一的系统要有效、准确、鲁棒。
新智元:请分享一下你们的思路、方法及获胜原因。
美国东北大学 SmileLab 实验室:今年 low-shot learning(有限制类)比赛中,我们取得了第一名的好成绩,因为有限制类的比赛没有用到除了主办方提供的训练数据集以外的数据,所以相比于无限制类,有限制类的并不可以通过扩充数据集,提高使用卷积神经网络学习到的特征的区分能力来提高识别准确率。
因此,我们在特征的区分能力有限的情况下,通过对数据集的分析,使用了混合分类器的模型,针对 Base Set 和 Novel Set 分别使用不用的分类器来进行识别。在 Base Set上,由于每一个人包含的样本很多,所以我们使用了一个卷积神经网络来进行特征学习与分类,在 Novel Set,依托于在 Base Set 上学习到的特征,针对每个类别只有一个样本的情况,我们使用属于非参模型的最近邻分类器进行分类。最终,通过融合策略结合不同分类器的特性,利用每个分类器的优点,在保证 Base Set 识别准确率的情况下,极大提高了 Novel Set 的召回率。
新智元:百万名人竞赛的难点在哪里?你们遇到的最大困难是什么?如何解决的?
美国东北大学 SmileLab 实验室:百万名人识别竞赛包含两个竞赛,一是大规模人脸识别,二是小样本学习,我们在小样本学习有限制类中取得了第一名,在大规模人脸识别竞赛无限制类中取得了第三名。 在大规模人脸识别竞赛中,最大的困难就是集外数据的扩充,因为主办方提供的训练数据集只覆盖了包含 75% 测试样本的数据,想要进一步提升性能,收集集外数据是必须的。我们通过收集和整理目前公开可以获取的数据集,扩充了 1500 人左右的集外数据。虽然相比于原有的 10 万人的规模,我们收集的这个集外数据集规模并不大,但是通过加入集外数据,扩充了原有的分类器的识别能力,提高了最终的识别精度。未来大规模人脸识别竞赛的难度还在于如何收集更多的数据。
在小样本学习中,遇到的最大的困难就是在提高 Novel set 召回率的时候,如何保持住 Base set 的识别精度。在参加比赛的过程中,为了提高 Novel set 在准确率 99% 时候的召回率,往往要牺牲一些 Base Set 的识别精度,如果没有 Novel Set,单纯的测试 Base Set,在主办方提供的验证集上识别 top-1 准确率可以高达 99.9% 以上。一开始,当我们 Novel Set 的召回率提高到 90% 以上的时候,Base Set 的准确率降低到了 98% 左右,这个时候我们对混合分类器的融合策略进行了改进,将在 Novel set 分类器上识别不自信的样本,重新送回 Base Set 的分类器进行分类。通过这一策略,我们在不降低 Novel Set 召回率的情况下,最终将 Base Set 的准确率从 98% 提高到了 99.5% 左右。
新智元:人脸识别还有哪些没有解决的问题?你们接下来的研究计划是什么呢?
美国东北大学 SmileLab 实验室:人脸识别在应用到实际问题中的时候,往往还需要针对不同的应用场景进行特定的调整,才能达到很好的效果,如何研究出更通用,或者说,经过很小的改动就可以应用到各个场景中的人脸识别算法,可能是未来大家要一起努力的方向。接下来我们的研究计划也是围绕这一目标进行。