你知道,在电影中,当电脑上有一个图像,坐在椅子上的侦探旁边的侦探说“你能放大并增强那个车牌吗?”多亏了谷歌最新的人工智能引擎,这项技术现在已经成为现实。
执行此操作的过程极其复杂且难以掌握,因为它们基于扩散模型(和一些非常高级的数学)并致力于为图像添加最初不存在的细节。这是通过使用相似图像的猜测来完成的,谷歌将这种技术称为自然图像合成,在这种情况下,称为图像超分辨率。
显然,您从一个小而像素化的图像(如上面每个图像集左侧的图像)开始,最终得到一个分辨率更高的图像,它不仅看起来更清晰,而且在人眼看来是真实的,甚至如果它与原始文件不是 100% 完全匹配。为了完成这项工作,谷歌使用了两种新的人工智能工具:通过重复细化(SR3) 和级联扩散模型(CDM) 的超分辨率。
第一个,SR3,向图像添加噪声(这看起来类似于信号弱时您在电视屏幕上看到的静态或雪),然后反转该过程。它使用大型图像数据库和一系列概率计算来绘制出图像的低分辨率版本是什么样子,谷歌研究员 Chitwan Saharia 在这里进行了更深入的研究。
“扩散模型通过逐步添加高斯噪声来破坏训练数据,慢慢消除数据中的细节直到它变成纯噪声,然后训练神经网络来扭转这种破坏过程,” Saharia解释说。
第二个工具 CDM 使用“管道”,可以引导各种扩散模型(包括 SR3)生成高分辨率升级。该工具使用基于高级概率的精心计算的模拟来制作增强模型的更大图像,谷歌发表了一篇研究论文。
最终结果?当研究人员在测试中向人们展示最终的图像时,他们选择生成的人脸大约有一半的时间被误认为是真实的人脸。虽然 50% 的比率听起来可能不成功,但它符合我们对完美算法的期望。谷歌表示,这种方法比其他图像增强选项产生更好的结果,包括使用竞争神经网络来优化图像的生成对抗网络。
谷歌表示,它打算用这些人工智能引擎及其相关技术做更多的事情,超出图像放大的范围,就像概率建模的其他领域一样。尽管这种“缩放和增强”技术可以轻松完成诸如高档旧照片之类的操作,但不可否认的是,它也绝对具有潜力,例如放大和增强照片或车牌或其他任何东西。