语音识别——人机交互的入口,指的是机器或者是程序能够接收、解释声音甚至理解和执行人类口头命令的能力。在当前的大数据和智能化时代,更多的场景在设计个性化的交互界面时,采用对...
中文的文本纠错,应用场景很多,诸如输入法纠错、输入预测、ASR 后纠错等等。这边简单梳理下对于这个任务的调研结果。...
ai语音识别技术在公检法领域应用场景众多,重点包括智慧庭审、虚拟法官、声纹研判、智能接警、警务智能语音服务以及电信反诈骗。...
今天,语音识别在移动端和音箱的应用上最为火热,语音聊天机器人、语音助手等软件层出不穷。许多人初次接触语音识别可能归功于苹果手机的语音助手Siri。...
本文由搜狗语音交互中心语音技术部负责人陈伟来为大家分享伴随着本轮人工智能浪潮下语音识别建模技术的演进,希望能够帮大家理清主流的识别建模脉络以及背后的思考。...
PCMU(G.711U) 类型:Audio 制定者:ITU-T 所需频宽:64Kbps(90.4) 特性:PCMU和PCMA都能提供较好的语音质量,但是它们占用的带宽较高,需要64kbps。 优点:语音质量优 缺点:占用的带宽较高 应用领域:...
今天学习一下音视频的基础知识,日常工作中都会接触到音视频的开发,比如目前工作中都会涉及到 TSPlayer、IjkPlayer、MediaPlayer 提供播放能力,不管是什么 Player,其上层调用都是大同小异...
VAD 可应用于低码率编码静音段数据减少网络数据传输,要知道在语音通话中超过 60% 的数据是 silence。在语音增强领域,处理加性背景噪音最流行的方法之一是谱减法 spectral subtraction[1, 2]:...
SILK v3编码是Skype向第三方开发人员和硬件制造商提供免版税认证(RF)的Silk宽带音频编码器,Skype后来将其开源。具体可见 Wikipedia 。 但是现在很难找齐源码,或者说懒得找。 一年前寻找的时候,...
前段时间一直到在使用 kaldi 来做声纹识别,算是可以把整个 i...
其实不是特别推荐在 Windows 下使用 kaldi,因为在 egs 下所有的脚...
Octopus2s方案推出之前,汽车制造商都是通过在汽车后备箱中安置...
音频技术是我们理所当然常常会考虑的一件事情。传统来讲,对...
TI公司的TPA31xxD2系列是立体声高效数字功率放大器,能驱动2欧姆扬...
H.264标准是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像...