镜子的另一面情况有所不同。
文字向后。时钟逆时针运行。汽车在错误的道路上行驶。右手变成左手。
康奈尔大学的一个研究小组对反射如何以微妙和不太微妙的方式改变图像产生了兴趣,他们使用人工智能研究了将原稿与反射区分开的原因。他们的算法学会了从意外的线索中捕捉信息,例如头发部位,凝视方向以及令人惊讶的胡须-这些发现对训练机器学习模型和检测伪造图像具有启示意义。
康奈尔理工学院计算机科学副教授,《视觉手性》研究的高级作者诺阿·斯纳韦利(Noah Snavely)说:“宇宙不是对称的。如果翻转图像,就会有差异。”该研究在2020年计算机视觉大会上发表。和模式识别,几乎于6月14日至19日举行。“我对通过收集信息的新方法所能发现的发现很感兴趣。”
林志奎是该论文的第一作者;合著者是计算机科学助理教授安倍·戴维斯(Abe Davis)和康奈尔科技大学的博士后研究员JinSun。
Snavely说,区分原始图像和反射图像对于AI来说是一件非常容易的事情-基本的深度学习算法可以快速学习如何分类图像是否以60%到90%的精度翻转,具体取决于所使用的图像种类训练算法。人们难以察觉到的许多线索。
在这项研究中,研究小组开发了创建热图的技术,该热图指示算法感兴趣的图像部分,以深入了解其如何做出这些决策。
他们毫不奇怪地发现,最常用的线索是文本,在每种书面语言中,文本看起来都不同。为了了解更多信息,他们从数据集中删除了带有文本的图像,并发现模型关注的下一组特征包括手表,衬衫领子(按钮通常在左侧),面部和手机-其中大多数人们倾向于左右手-以及其他显示右手性的因素。
该算法倾向于集中在人脸上,这对研究人员很感兴趣,这种面孔似乎并不对称。“在某些方面,它留下的问题多于答案。”斯内夫利说。
然后,他们进行了另一项针对面部的研究,发现热量图在包括头发部位,眼睛凝视在内的区域照亮了(由于研究人员不知道的原因,大多数人凝视肖像照片中的左侧)和胡须。
Snavely说他和他的团队成员不知道该算法在胡须中发现了什么信息,但是他们假设人们梳理或刮脸的方式可以显示出手感。
“这是视觉发现的一种形式,” Snavely说。“如果您可以在数百万个图像上大规模运行机器学习,也许您可以开始发现有关世界的新事实。”
结果表明,每个线索可能都不可靠,但是该算法可以通过组合多个线索来建立更大的置信度。研究人员还发现,该算法使用源自相机处理图像的方式的低电平信号来做出决策。
尽管需要进行更多的研究,但是这些发现可能会影响机器学习模型的训练方式。这些模型需要大量的图像,以学习如何对图片进行分类和识别,因此计算机科学家经常使用现有图像的反射来有效地将其数据集增加一倍。
Snavely说,检查这些反射图像与原始图像有何不同,可以揭示有关机器学习中可能导致结果不准确的偏见的信息。
“这为计算机视觉界带来了一个悬而未决的问题,那就是什么时候可以进行这种翻转以扩充您的数据集,什么时候不可以?”他说。“我希望这将使人们对这些问题有更多的思考,并开始开发工具以了解它如何使算法产生偏差。”
了解反射如何改变图像也可以帮助AI识别伪造或篡改的图像-这是互联网上日益引起关注的问题。
Snavely说:“如果您想确定某些事物是真实的,那么这也许是可以在图像取证领域中使用的新工具或新见解。”
这项研究得到了Google前首席执行官慈善家埃里克·施密特(Eric Schmidt)和温迪·施密特(Wendy Schmidt)的部分支持。