语音识别 ASR

语音识别 ASR

提供业界非常具有性价比的语音识别服务,超高识别准确率,适用多场景

专业智能高效的语音处理服务

提供技术支持

腾讯云语音识别产品详细信息

腾讯云语音识别为开发者提供语音转文字服务的最佳体验。经公司内部微信、QQ 、腾讯视频、王者荣耀等大体量业务充分验证,也在大量互联网、金融、教育等领域的外部客户业务场景成功落地,日服务亿级用户。具有海量数据支撑、算法业界领先、支持语种丰富、服务性能稳定、抗噪音能力强、识别准确率高等优势。

功能

语音识别开放实时语音识别、录音文件识别、语音流异步识别、录音文件识别极速版和一句话识别五种服务形式,满足不同类型开发者需求。

实时语音识别

对实时音频流进行识别,达到“边说边出文字”的效果。适用于有一定实时性要求的场景,例如语音输入、语音机器人、会议现场记录、直播内容审核、视频实时添加字幕等场景。

  • 目前支持中文普通话、英语、粤语、韩语、日语、泰语、上海话方言。新增四川话、南京话、南昌话,更多方言需求可填写 方言服务需求申请单 进行申请。
  • 行业/领域模型:目前支持金融、教育、法庭、医疗、游戏领域模型。
  • 音频属性:支持 wav、pcm、opus、speex、silk、mp3、m4a、aac 的音频格式,支持8k、16k采样率的单声道音频流,支持16bit的数据采样精度。
  • 音频数据长度:建议音频流中每个数据包的音频分片为200ms。
  • 自学习模型:支持通过语言模型自学习工具进行定制优化,可有效提高专有领域或行业下的语音识别准确率。更多详情请参阅 自学习模型文档
  • 热词:目前支持通过控制台方式和API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档

关于实时语音识别使用详情,请参阅 实时语音识别 SDK 文档

录音文件识别

对不超过五小时的录音文件进行识别。适用于语音时间较长、对实时性要求低的场景,例如客服质检、视频字幕生成、音频节目字幕生成等。

  • 语言和方言:目前支持中文普通话、英语、粤语、日语、泰语、上海话方言。新增四川话、南京话、南昌话,更多方言需求可填写 方言服务需求申请单 进行申请。
  • 行业/领域模型:目前支持音视频、教育、医疗领域模型。
  • 音频属性:支持 wav、mp3、m4a、wma、3gp、amr、aac、ogg-opus、flac、flv、mp4格式,支持8k、16k采样率的单声道或双声道音频识别,支持16bit的数据采样精度。
  • 音频数据长度支持:若采用直接上传音频数据方式,建议音频数据不能大于5MB;若采用上传音频 url 方式,建议音频时长不能大于五小时。
  • 自学习模型:支持通过语言模型自学习工具进行定制优化,可以有效提高文本场景下的语音识别准确率。更多详情请参阅 自学习模型文档
  • 热词:目前支持通过控制台方式和 API 方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档

关于录音文件识别使用详情,请参阅 录音文件识别 API 文档

语音流异步识别

对直播协议语音流进行识别,准实时返回识别结果,支持音视频场景专用模型,可用于直播流质检等场景。

  • 语言和方言:目前支持中文普通话、英语、粤语。
  • 行业/领域模型:目前支持音视频领域模型。
  • 音频属性:支持 RTMP、HTTP、RTSP 主流直播流协议,支持 FLV、M3U8语音流格式,支持16k采样率的单声道,支持16bit的数据采样精度。
  • 音频数据长度支持:不限时长的语音流。
  • 自学习模型:支持通过语言模型自学习工具进行定制优化,可以有效提高文本场景下的语音识别准确率。更多详情请参阅 自学习模型文档
  • 热词:目前支持通过控制台方式和 API 方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档
    关于语音流异步识别使用详情,请参阅 语音流异步识别 API 文档

录音文件识别极速版

对用户上传的较大的录音文件进行极速识别,半实时返回识别结果;可应用于音视频字幕、准实时质检分析场景等场景。

  • 语言和方言:目前支持中文普通话、英语。
  • 行业/领域模型:目前支持音视频领域模型。
  • 音频属性:支持 wav、pcm、ogg-opus、speex、silk、mp3、m4a、aac 音频格式,支持16k采样率的单声道,支持16bit的数据采样精度。
  • 音频数据长度支持:不限时长的语音流。
  • 自学习模型:支持通过语言模型自学习工具进行定制优化,可以有效提高文本场景下的语音识别准确率。更多详情请参阅 自学习模型文档
  • 热词:目前支持通过控制台方式和 API 方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档
    关于语音流异步识别使用详情,请参阅 录音文件识别极速版 API 文档

一句话识别

对60秒之内的短音频文件进行识别。适用于语音消息转写场景,例如语音短信、语音搜索等。

  • 语言和方言:目前支持中文普通话、英语、粤语、日语、上海话方言。
  • 音频属性:支持 wav、mp3 的音频格式,支持8k、16k采样率的单声道音频,支持16bit的数据采样精度。
  • 音频数据长度:音频时长不超过60s,数据大小不可以超过3MB。
  • 自学习模型:支持通过语言模型自学习工具进行定制优化,可有效提高专有领域或行业下的语音识别准确率。更多详情请参阅 自学习模型文档
  • 热词:目前支持通过控制台方式和 API方式进行热词的创建,添加热词可以显著提升专有词汇识别准确率。更多详情请参阅 热词文档

关于一句话识别使用详情,请参阅 一句话识别 SDK 文档

http://www.vxiaotou.com