Google开源LiveTranscribe的语音引擎,为长篇对话提供字幕-官网下载

发布者: 发布时间:2021-08-05
本文摘要:发送到无限宽度的音频流。

发送到无限宽度的音频流。另外,赖云意味着网络连接、数据成本和延迟存在潜在问题。结果,语音发动机在超时前重新启动流量催促,包括长时间静音期间新的开始不会说话,每次在语音中检测到停止时重新启动。在对话中,语音发动机还在当地缓冲器的声音中,在新的连接中发送。

因此,谷歌防止了切断的句子和单词,增加了不会说话的文本量。为了减少比特率市场的需求和成本,谷歌还评价了FLAC、AMR-WB和Opus不同的音频编码解码器。

FLAC(可用编码解码器)可以保持准确性,节省大量数据,具有显着的编码解码器延迟。AMR-WB虽然可以节省大量的数据,但是在喧嚣的环境中精度却很低。与此同时,Opus允许数据速度比大多数音乐流媒体服务低很多倍,同时保持音频信号的最重要细节。

谷歌不会在长时间的静音期间用于语音检查重启网络连接。总的来说,团队需要构建数据使用量增加10倍,而不影响准确性。

为了比Cloud更延迟,LiveTranscribe用于定制Opus编码器。编码器正好提高了比特率,不能区分视觉上没有压缩的声音。

爱博体育app

LiveTranscribe语音引擎功能谷歌列出语音引擎的以下功能(不包括说明者的识别):无限流媒体。反对70多种语言。

可以修改网络丢失(在网络和Wi-Fi之间转换时)。文字丢失,只会延迟。

强烈扩大网络损失。即使网络已经供电数小时,也不会有新的联系。

当然,没有连接就不能进行语音识别。可以精彩地完成Opus、AMR-WB和FLAC代码。

包括文本格式库,可视化ASR信赖度、发言人ID等。可以扩大离线模型。

内置反对语音检测器,在缩短静音期间可作为暂停ASR,节约资金和数据。内置反对音箱识别,可根据音箱编号标记或着色文本。字幕不会随着对话的理解而调整文档,认为这些库与生产应用LiveTranscribe中运营的库完全一样。谷歌已经开展了普遍的现场测试和单元测试,但测试本身并不开源。

但谷歌显然获得了APK,开发人员可以在不构建代码的情况下试用该库。(公共编号:)via:安卓.comventurebeatventurebeat的原始文章。下一篇文章发表了注意事项。


本文关键词:爱博体育app,官网下载

本文来源:爱博体育app-www.shivaul.com