微软为视障人士提供的新AI自动字幕图像

更新时间：2021-11-30 13:24:03

导读微软的新人工智能旨在自动为文档和电子邮件中的图像添加字幕，以便视力受损的软件能够读出图像。微软的研究人员在一篇关于印前存储库arXiv

微软的新人工智能旨在自动为文档和电子邮件中的图像添加字幕，以便视力受损的软件能够读出图像。

微软的研究人员在一篇关于印前存储库arXiv的论文中解释了他们的机器学习模型。

该模型采用视觉语音词汇预训练(VIVO)，利用大量成对的图像标签数据学习视觉词汇。

然后使用第二组带有适当字幕的图像数据，帮助人工智能学习如何最好地描述图像。

“理想情况下，每个人都应该在文档、网络和社交媒体中的所有图像中添加替代文本，因为这使盲人能够访问内容并参与对话。但不幸的是，人们没有。”微软AI平台集团软件工程经理Saqib Shaikh表示。

总的来说，研究人员希望人工智能能够提供两倍于微软现有字幕系统的性能。

为了测试新人工智能的性能，研究人员将其纳入了“无限”挑战。在撰写本文时，微软的AI现在排名第一。

“无限挑战其实是如何描述那些你在训练数据中没有看到的新奇物体？”微软研究实验室首席研究经理王丽娟评论道。

想要使用微软自动选项AI构建应用程序的开发人员已经可以这样做了，因为这个功能是在Azure认知服务的计算机视觉包中提供的。

微软令人印象深刻的SeeingAI应用程序将更新为新的AI，它使用计算机视觉来描述视力障碍者的周围环境。

Azure AI认知服务公司微软CTO黄表示：“图像字幕是计算机视觉的核心功能之一，可以实现广泛的服务。

黄继续说道：“我们将AI的这一突破视为Azure服务更多客户的平台。”“这不仅是研究上的突破；在Azure中将突破转化为生产所需的时间也是一个突破。”

标签：

猜你喜欢