之间网

在厨房中构建计算机视觉

生活
导读 想象一下,看着披萨厨师在厨房里忙碌。你会看到他:称量面粉,然后加入水和酵母;将混合物揉成面团;让面团发酵,同时切意大利辣香肠和其他配...

想象一下,看着披萨厨师在厨房里忙碌。你会看到他:称量面粉,然后加入水和酵母;将混合物揉成面团;让面团发酵,同时切意大利辣香肠和其他配料;将面团摊开,然后组装披萨并将其放入烤箱。

虽然大多数人无法像经验丰富的厨师一样流畅地执行披萨制作步骤,但他们可以看到并识别所做的工作。人们可以看到厨师打开面粉袋并用面粉勺挖开它,将意大利辣香肠从冰箱中取出并反复放在切片机上,或者用盒式磨碎机磨碎奶酪。最后,人们明白了面粉变成了面团,面团又变成了披萨。

计算机视觉软件可以建立同样的联系吗?

注释成功

对于新加坡管理大学计算机科学助理教授朱斌来说,答案在于 VISOR(视频分割和对象关系),这是朱教授和他的合作者一直在研究的数据集。

通过在第一人称视频(也称为自我中心视频)中勾勒出某些物体(例如手、刀、面粉勺、磨碎机等)并为其分配识别标签,VISOR 旨在:更好地识别单独的物体;了解手和物体如何相互作用;更好地推理和理解物体的转变,例如面粉变成面团或土豆变成薯条。

这种勾勒和标记物体的过程称为“注释”,可以通过“稀疏掩码”或“密集掩码”实现。

“稀疏蒙版是用于选择视频内的关键帧而不是每个帧的注释,”朱教授解释道。

“这些蒙版经过精心设计,可在视频序列中的重要时刻或间隔勾勒出物体的轮廓。密集蒙版是详细的、连续的像素级注释,涵盖了视频片段中的每一帧。在 VISOR 中,这些蒙版通常是通过稀疏蒙版之间的插值生成的,使用计算机视觉算法来填补空白。

“稀疏掩码对于细粒度的自我中心视频理解非常有用,例如动作识别(例如‘切土豆’)和物体状态变化。相反,密集注释可以分析物体随时间的变化方式,从而深入了解人与物体之间的相互作用,而稀疏注释本身可能会遗漏这一点。”

VISOR 在 280 万张图片中提供了超过 1000 万个密集标记,每个带注释的物品都有一个掩码,该掩码被分配了一个实体类(“刀”、“叉”、“盘子”、“橱柜”、“洋葱”、“鸡蛋”等)和一个宏类别(“餐具”、“器具”、“容器”、“蔬菜”等)。例如,实体类“刀”和“叉”被归类到宏类别“餐具”中。总而言之,VISOR 拥有 1,477 个带标签的实体,可识别和注释许多厨房物品。

除了识别物体并注释物品与人手如何互动之外,VISOR 还提出了一项名为“这是从哪里来的?”的任务。在披萨厨师的案例中,面粉将被识别为来自面粉袋。VISOR 注释涵盖的视频平均时长为 12 分钟,这比大多数现有数据集要长得多。这允许对长时间内的物体状态进行深入分析和推理,从而促进对持续互动和变化的研究。

障碍和未来用途

与许多其他数据集(例如 UVO(未识别视频对象))不同,VISOR 使用来自 EPIC-KITCHENS 数据集的自我中心视频,这带来了额外的挑战。自我中心视频本质上是动态的:当手移到物品上时,物体通常会被遮挡,物品会发生变化,就像面粉变成面团披萨的例子一样。

VISOR 旨在通过以下方式克服障碍:

细粒度的自我中心视频理解:VISOR 提供的对象蒙版即使经过重大变换也能清晰显示对象的边界。这种精度使得开发高级深度模型成为可能,用于分析视频中的细粒度交互和变换,例如自我中心动作识别和对象状态分析。

增强交互理解:关于手如何与各种物体交互的详细注释有助于研究和模拟人类行为,特别是在厨房等自然环境中。

长期视频理解:通过对物体的动作和变换(如剥洋葱和煮洋葱)进行连续注释,VISOR 支持对视频中的长期推理的研究,例如长期物体跟踪。

朱教授告诉研究办公室:“随着技术的成熟和实时处理等技术挑战得到解决,VISOR 等技术可用于开发辅助技术,帮助残疾人士或老年人更独立地导航和管理现实世界的任务。”

“具备理解复杂物体交互和预测未来动作能力的机器人可以用于各种活动,例如烹饪、清洁和制造。”

他补充道:“以自我为中心的视频理解还可用于开发基于虚拟现实(VR)或增强现实(AR)的培训和教育工具,从第一人称视角提供分步指导。”

标签: