织梦CMS - 轻松建站从此开始！

高级搜索|网站地图|TAG标签 RSS订阅[设为首页] [加入收藏]

当前位置: 主页>智能技术>『音频智能』>

google sdk speech-to-text(谷歌语音转文本、谷歌语音转

jackyhwei 发布于 2020-11-10 15:35 点击:次

google sdk speech-to-text 同步识别（REST 和 gRPC）将音频数据发送到 Speech-to-Text API，对该数据执行识别，并在所有音频处理完毕后返回结果。同步识别请求仅限于持续时间不超过 1 分钟的音频数据。

TAG: ASR 字幕

google sdk speech-to-text

同步识别（REST 和 gRPC）将音频数据发送到 Speech-to-Text API，对该数据执行识别，并在所有音频处理完毕后返回结果。同步识别请求仅限于持续时间不超过 1 分钟的音频数据。
异步识别（REST 和 gRPC）将音频数据发送到 Speech-to-Text API 并启动长时间运行的操作。使用此操作，您可以定期轮询识别结果。异步请求可用于任何持续时间不超过 180 分钟的音频数据。
流式识别（仅限 gRPC）对 gRPC 双向流内提供的音频数据执行识别。流式传输请求专为实时识别（例如从麦克风采集实时音频）而设计。流式识别可以一边采集音频一边提供临时结果，例如实现在用户仍在讲话时显示结果。

源码

https://github.com/opensourceteams/google-sdk-speech-to-text

识别率超高的在线麦克风语音转文本(免费工具)

https://www.speechtexter.com

官网文档

https://cloud.google.com/speech-to-text/docs/quickstart-client-libraries#client-libraries-usage-java

Java 流式和非流式语音识别示例(官网示例)

google speech-to-text

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/languages.md

google 语音转文本(短语音)

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/speech-text.md

google 语音转文本(英文短语音)

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/speech-text-english.md

google 语音转文本(异步短语音)

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/speech-text-async.md

google 语音转文本(每个单词带时间戳)

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/speech-text-time.md

google 语音转文本自动加标点符号(短语音)

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/Google_Gnome.wav

google 通过流的方式发送语音文件转文本

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/speech-text-steam.md

google 通过流的方式发送语音(直接用电脑上的麦克风说话)

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/speech-text-micsteam.md

google 语音转文本(多轨支持)

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/speech-text-multiChannel.md

Google Speech 多语言支持

https://github.com/opensourceteams/google-sdk-speech-to-text/blob/master/md/speech-text-multiLanguage.md

(thinktothings)

本站文章除注明转载外，均为本站原创或编译欢迎任何形式的转载，但请务必注明出处，尊重他人劳动，同学习共成长。转载请注明：文章转载自：罗索实验室 [http://www.rosoo.net/a/202011/17764.html]
本文出处：CSDN博客　作者：thinktothings 原文

顶一下

(0)

0%

踩一下

(0)

0%

------分隔线----------------------------

上一篇：Avaya DMCC录音技术与原理
下一篇：专访沈向洋：人工智能泡沫很大真正难的是落地

相关文章

HResults计算字错率(WER)、句错率(SER)	加权有限状态机在语音识别中的应用
2019 Google I/O大会亮点集锦：实时字幕、隐身模式	尖叫连连！谷歌I/O新惊喜：智能助手0延迟对话、
I/O 2019：谷歌展示Live Caption实时字幕功能

发表评论

最新评论 进入详细评论页>>

栏目列表

将本文分享到微信

推荐内容

Kaldi 中的声纹识别
前段时间一直到在使用 kaldi 来做声纹识别，算是可以把整个 i...
kaldi 在 Windows 下的使用
其实不是特别推荐在 Windows 下使用 kaldi，因为在 egs 下所有的脚...
DiBcom针对汽车音响系统推出数字电
Octopus2s方案推出之前，汽车制造商都是通过在汽车后备箱中安置...
音频将在未来智能设备中扮演核心
音频技术是我们理所当然常常会考虑的一件事情。传统来讲，对...
TI TPA3116D2 2x50W D类音频放大器解决方
TI公司的TPA31xxD2系列是立体声高效数字功率放大器,能驱动2欧姆扬...
H.264编解码相关专题
H.264标准是ITU-T的VCEG（视频编码专家组）和ISO/IEC的MPEG（活动图像...

热点内容