更新时间:2021-11-30 13:24:03
微软的新人工智能旨在自动为文档和电子邮件中的图像添加字幕,以便视力受损的软件能够读出图像。
微软的研究人员在一篇关于印前存储库arXiv的论文中解释了他们的机器学习模型。
该模型采用视觉语音词汇预训练(VIVO),利用大量成对的图像标签数据学习视觉词汇。
然后使用第二组带有适当字幕的图像数据,帮助人工智能学习如何最好地描述图像。
“理想情况下,每个人都应该在文档、网络和社交媒体中的所有图像中添加替代文本,因为这使盲人能够访问内容并参与对话。但不幸的是,人们没有。”微软AI平台集团软件工程经理Saqib Shaikh表示。
总的来说,研究人员希望人工智能能够提供两倍于微软现有字幕系统的性能。
为了测试新人工智能的性能,研究人员将其纳入了“无限”挑战。在撰写本文时,微软的AI现在排名第一。
“无限挑战其实是如何描述那些你在训练数据中没有看到的新奇物体?”微软研究实验室首席研究经理王丽娟评论道。
想要使用微软自动选项AI构建应用程序的开发人员已经可以这样做了,因为这个功能是在Azure认知服务的计算机视觉包中提供的。
微软令人印象深刻的SeeingAI应用程序将更新为新的AI,它使用计算机视觉来描述视力障碍者的周围环境。
Azure AI认知服务公司微软CTO黄表示:“图像字幕是计算机视觉的核心功能之一,可以实现广泛的服务。
黄继续说道:“我们将AI的这一突破视为Azure服务更多客户的平台。”“这不仅是研究上的突破;在Azure中将突破转化为生产所需的时间也是一个突破。”
听起来越来越有可能在今年的某个时候推出16英寸MacBookPro
三星Galaxy J8是一款搭载6英寸Super AMOLED显示屏的手机
三星Galaxy A41是一款6英寸到6.1英寸之间的非常小巧的手机
TCL TAB作为运营商独家加入威瑞森平板电脑阵容
华为电脑更新并关机怎么办
柔宇科技美国上市计划搁置
小米真无线降噪耳机Air 2 Pro正式开启预售
三星Galaxy Tab Active3更多配置曝光
GSMArena网站爆出了realme C17的更多配置信息
Switch Pro将于2021年推出或采用双屏幕设计
卢伟冰:Redmi K30 Pro即将退市
三星Galaxy Note20系列及多款新品发布打造智能生活全新方式