更新时间:2021-10-21 04:27:12
1、 谷歌今天开放了安卓语音识别和转录工具Live script的语音引擎。该公司希望这将允许任何开发者为长对话提供字幕。源代码现在可以在GitHub上获得。
2、 谷歌在2月份发布了直播转录。该工具使用机器学习算法将音频转换为实时字幕。与安卓即将推出的直播字幕功能不同,直播转录是一种全屏体验,它使用智能手机的麦克风(或外部麦克风),并依赖于谷歌云语音API。直播转录可以实时说70多种语言和方言的标题。你也可以输入它——实时转录实际上是一种交流工具。另一个主要区别是:Live script可以在18亿个安卓设备上使用。(今年晚些时候推出Live Caption时,只适用于部分安卓Q设备。)
3、 在云上工作。
4、 谷歌的云语音API目前不支持发送无限长的音频流。此外,依赖云意味着网络连接、数据成本和延迟方面的潜在问题。
5、 结果,语音引擎在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新启动会话,以及每当在语音中检测到暂停时关闭。在会话之间,语音引擎还会在本地缓冲音频,然后在重新连接时发送。因此,谷歌避免了被截断的句子或单词,减少了对话中丢失的文本量。
6、 为了降低带宽要求和成本,谷歌还评估了不同的音频编解码器:FLAC、AMR-WB和Opus。FLAC(无损编解码)可以在不保存太多数据的情况下保持精度,并且有明显的编解码延迟。AMR-WB可以保存大量数据,但在噪声环境下精度较低。同时,Opus允许数据速率比大多数音乐流媒体服务低很多倍,同时仍然保留音频信号的重要细节。谷歌还使用语音检测在长时间的沉默中关闭网络连接。总体而言,该团队能够实现“在不影响准确性的情况下,将数据使用量减少10倍”。
7、 为了比云语音应用编程接口更进一步降低延迟,实时转录使用了定制的Opus编码器。编码器只是提高了比特率,以至于“延迟无法在视觉上区分发送未压缩的音频”。
8、 现场转录语音引擎功能。
9、 谷歌列出了语音引擎的以下功能(不包括说话人识别):
10、 无限流媒体。
11、 支持70多种语言。
12、 可以简化网络损耗(在网络和无线网络之间旅行和切换时)。话没有丢,只有耽误。
13、 强大的扩展网络损失。即使网络断电几个小时,也会重新连接。当然,没有连接,语音识别是不可能的。
14、 强大的服务器错误。
15、 Opus、AMR-WB和FLAC编码可以轻松启用和配置。
16、 包含一个文本格式库,用于可视化ASR置信度、说话人标识等。
17、 模型可以离线扩展。
18、 内置语音检测器可用于在长时间静音期间停止ASR,节省资金和数据。
19、 内置支持说话人识别,可以根据说话人编号对文字进行标记或上色。
20、 该文档指出,这些库与生产应用程序“实时转录”中运行的库“几乎完全相同”。谷歌进行了“广泛的现场测试和单元测试”,但测试本身并不是开源的。但是谷歌确实提供了APK,所以你可以在不构建任何代码的情况下尝试这个库。
《阿斯加德之怒》是一款野心勃勃的VR动作游戏
TENAA揭示了一款新的诺基亚智能手机即将推出
三星Galaxy F62发布日期已经公布
Twitter预计iOS 14隐私控制将对2021年的收入产生“中等影响”
Apple为Apple TV +节目For All Mankind推出AR时间胶囊应用程序
苹果将在下个月发布新的iPad Pro机型
据分析公司称具有可折叠屏幕的iPhone将于2023年投放市场
Nvidia宣布用于加密货币挖掘的GPU系列
马克卡利出售新泽西州办公资产
亚马逊主导的圣地亚哥开发项目完成
StawbachCapital的CawleyPartners收购了2家DFW办公物业
亚马逊将在底特律大都会区增加5个设施