图像注释,AI比人类更精确?微软新算法刷新图像注释基准测试纪录

互联网
图像注释,AI比人类更精确?微软新算法刷新图像注释基准测试纪录
麻省理工科技评论 2020-10-20

2020-10-20

微软开发了一种新的图像注释 AI,并称其精确度超过了人类,该算法未来将应用到微软其他产品中。
人工智能
微软开发了一种新的图像注释 AI,并称其精确度超过了人类,该算法未来将应用到微软其他产品中。

今年 9 月,微软在一篇论文中描述了一种新的图片注释算法。微软表示,其开发的新算法在某些特定的测试中,精确度超过了人类。

目前,该 AI 系统已被用于更新微软为视障人士设计的助手应用程序“Seeing AI”,并将很快被整合到 Word、Outlook 和 PowerPoint 等微软其他产品中。届时,它将用于为图像创建替代文本(alt-text)之类的任务。这个功能对于提高可访问性特别重要。

图像注释AI比人类更精确?微软新算法刷新图像注释基准测试纪录

图|开发人员 Florian beijingers 正在使用“Seeing AI”,微软图片注释算法将被用于改进该类应用。(来源: 微软 / Maurice Jager)

微软人工智能团队的软件工程经理 Saqib Shaikh 在一份新闻声明中说:“理想情况下,所有人都应该为文件、网络和社交媒体中的图片添加替代文本,只有这样,才能使盲人能够理解具体内容并参与对话。但是,现在人们并没有做到这一点。所以,我们迫切需要一些应用程序来为图片添加替代文本。”

新算法性能是之前的两倍

这些应用程序包括微软在 2017 年首次发布的 Seeing AI。它使用计算机视觉技术,通过智能手机摄像头为视障人士描述世界。它不仅能识别家用物品、描述场景,还能扫描文本或帮助阅读,甚至能识别朋友。它还可以用于描述其他应用程序中的图片,例如电子邮件、社交媒体等。

微软没有透露使用 Seeing AI 的用户数量,但 Azure AI 公司副总裁埃里克 · 博伊德(Eric Boyd)在采访中表示,这款软件是“为盲人或弱视人士提供的先进应用之一”。Seeing AI 已经连续三年被盲人和弱视人士 iOS 用户社区 AppleVis 评为最佳辅助应用。

微软的新图像注释算法将显著提高 Seeing AI 的性能,因为它不仅能够识别物体,还能更精确地描述它们之间的关系。因此,算法可以在处理图片时,不仅知道其中包含哪些物品和对象(例如,一个人,一把椅子,一个手风琴”),还能知道它们是如何交互的(例如,“一个人坐在椅子上弹奏手风琴”)。微软表示,该算法性能比 2015 年开始使用的上一代算法好两倍。

微软团队在在 9 月份发表的一篇预印本论文中对该算法进行了描述,它在一项名为 “nocaps” 的图像注释基准测试中获得了有史以来的最高分数。“nocaps”是业内领先的图片注释测试,当然,它有自己的限制条件。

nocaps 基准测试由超过 16600 条人工生成的图片注释组成,这些注释描述了来自开放图像数据库的大约 15100 张图片。这些图片涵盖了一系列场景,从运动到度假,再到美食摄影等等。

研究人员测试了该算法为这些图片创建注释的能力,并与人工生成的图片注释做了对比。

图像注释AI比人类更精确?微软新算法刷新图像注释基准测试纪录

图 | 新算法创建的替代文本示例。(来源:微软)

但是,需要注意的是,此次 nocaps 基准测试只涉及了复杂图像注释一般任务中的一小部分图片。微软在一份新闻稿中声称,它的新算法“能像人一样描述图片”,事实上,只有在处理 nocaps 中一小部分图片时,它才达到了这些效果。

“性能在 nocaps 上超越人类,并不意味着图像注释难题已经解决了”

正如 nocaps 基准测试的创建者之一 Harsh Agrawal 说的那样:“该算法性能在 nocaps 上超越人类,并不意味着图片注释难题已经解决。”Argawal 指出,在 nocaps 上测试性能的指标“仅与人类大致相关”,而基准测试本身“仅涵盖所有可视化概念的一小部分”。

Argawal 认为,与大多数基准测试一样,nocaps 基准只能表示算法在任务中的性能的一个粗略指标,在 nocaps 上有超越人类的表现,并不意味着 AI 系统在图像理解上超越人类。

夸大 AI 的能力是现阶段科技公司的一个常见问题,因为在特定基准上的性能不足以推断出在更普遍的基础任务上的性能。事实上,微软在过去也曾因对其算法理解文字的能力做出类似声明而受到研究人员的批评。

不过,近年来,由于人工智能的出现,图片注释的任务已经有了巨大的改进,微软的算法无疑是最先进的。除了被集成到 Word、Outlook 和 PowerPoint 中,这款配有图片注释的人工智能还将通过微软的云计算和人工智能平台 Azure 作为独立模型提供。

麻省理工科技评论

From Tech to Deeptech