国会图书馆有发射一种新的基于AI驱动的图像工具,用于搜索旧报纸,使任何人都能从1600多万张扫描的报纸页面中找到历史图像。报纸导航器建立在LOC现有的编年史项目的基础上,其结果是一个视觉内容识别模型,能够在数字化报纸中找到各种图像,包括地图、漫画、照片、插图、广告等。
记录的项目是LOC的历史报纸档案。有了这个工具,任何人都可以使用光学识别技术(OCR)来搜索可追溯到17世纪晚期的大量数字化报纸档案。报纸导航器建立在此基础上,引入了搜索图像而不是文本的能力。使用来自编年史项目的带注释的报纸页面来训练对象检测模型,使其能够从16,358,041个报纸页面中提取视觉内容。
新工具由LOC 2020创新者住宅本杰明·查尔斯·杰曼·李创建,他在一段新视频中详细介绍了该项目。除了提供在线搜索工具,LOC已将提取的视觉内容作为预打包数据集发布,可供下载来自Github。这种预先打包的内容是按年划分的,除了图像之外,还包括各种元数据。
用户可以搜索超过160万张图片,这些图片来源于1900年至1963年的报纸。结果是相当准确的,尽管如果扫描的报纸文本质量很差,使用光学字符识别提取内容描述可能会显得暗淡无光。
该界面包括一些有用的选项,包括下载图片的链接、查看完整的报纸、了解更多关于报纸的信息以及获取图片的引用。当然,这是假设你使用的是在线搜索工具,而不是Github上的预打包可下载图像数据集。
根据,报纸导航器最终是从历史报纸中提取的最大的单一数据集完整的研究。机器学习技术产生了一种前所未有的方式来快速分类数字化材料,否则这些材料将过于庞大,无法手动搜索。