环球门户网

微软为视障人士提供的新AI自动字幕图像

更新时间:2021-11-30 13:24:03

导读 微软的新人工智能旨在自动为文档和电子邮件中的图像添加字幕,以便视力受损的软件能够读出图像。微软的研究人员在一篇关于印前存储库arXiv

微软的新人工智能旨在自动为文档和电子邮件中的图像添加字幕,以便视力受损的软件能够读出图像。

微软的研究人员在一篇关于印前存储库arXiv的论文中解释了他们的机器学习模型。

该模型采用视觉语音词汇预训练(VIVO),利用大量成对的图像标签数据学习视觉词汇。

然后使用第二组带有适当字幕的图像数据,帮助人工智能学习如何最好地描述图像。

“理想情况下,每个人都应该在文档、网络和社交媒体中的所有图像中添加替代文本,因为这使盲人能够访问内容并参与对话。但不幸的是,人们没有。”微软AI平台集团软件工程经理Saqib Shaikh表示。

总的来说,研究人员希望人工智能能够提供两倍于微软现有字幕系统的性能。

为了测试新人工智能的性能,研究人员将其纳入了“无限”挑战。在撰写本文时,微软的AI现在排名第一。

“无限挑战其实是如何描述那些你在训练数据中没有看到的新奇物体?”微软研究实验室首席研究经理王丽娟评论道。

想要使用微软自动选项AI构建应用程序的开发人员已经可以这样做了,因为这个功能是在Azure认知服务的计算机视觉包中提供的。

微软令人印象深刻的SeeingAI应用程序将更新为新的AI,它使用计算机视觉来描述视力障碍者的周围环境。

Azure AI认知服务公司微软CTO黄表示:“图像字幕是计算机视觉的核心功能之一,可以实现广泛的服务。

黄继续说道:“我们将AI的这一突破视为Azure服务更多客户的平台。”“这不仅是研究上的突破;在Azure中将突破转化为生产所需的时间也是一个突破。”

版权声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢您的支持与理解。