在今天人工智能团队的更新中,Facebook 透露它已经改进了它在 2016 年首次引入的自动替代文本 (AAT) 技术。通过这个系统,Facebook 能够自动为用户在其平台上共享的图像添加替代文本盲人或视力障碍者 (BVI)。上传图像中包含的替代文本使 BVI 用户能够使用屏幕阅读器了解内容,屏幕阅读器会阅读描述图像所呈现内容的文本。许多人在上传图像时不提供替代文本,这就是 AAT 系统及其对象识别功能的用武之地。
在今天的技术更新中,Facebook 推出了下一代自动替代文本,据称利用“多项技术进步”将 AAT 能够在照片中找到的概念增加 10 倍,并使系统能够提供更详细的信息。用户的图像描述。
Facebook 表示,随着此次更新,更多图像将受益于 AAT,文本描述将使用户更深入地了解内容,注意地标、动物甚至可能发生的活动的存在。
据 Facebook 称,下一代 AAT 也是同类中第一个能够在照片中包含对象的大致大小和位置,例如注意到照片中的一个人站在旁边的一边耸立在他们身上的树。
AAT 的第一个版本依赖于以人类标记的图像中的对象为特征的训练数据。Facebook 指出,由于此类训练的时间密集性,其原始 AAT 模型只能“可靠地”识别图像中的 100 个对象。
下一代模型不再采用这种学习方法,而是使用“弱监督数据”,即在 Instagram 上公开分享的数十亿张带有主题标签的照片。Facebook 使用话题标签的语言翻译和一些微调,解释了它的新模型:
...更准确,并且在文化和人口统计上更具包容性——例如,他们可以(部分)根据传统服装来识别世界各地的婚礼,而不是只标记带有白色婚纱的照片。
此时,AAT 系统现在能够可靠地识别和识别图像中的 1,200 多个概念,Facebook 指出它只包括该技术可以以一定的高精度处理的概念。此版本的 AAT 省略了识别精度较低的概念。
下一代 AAT 系统可在 Facebook 和 Instagram 上以 45 种语言使用。用户可以选择获取他们感兴趣的某些图像的更详细描述,例如家人和朋友分享的图像。