短语音听写

1 接口概述
依图短语音听写接口可将时长不超过60秒的音频文件转写成文字,支持音频文件Base64编码后上传。
1.1 支持格式
音频文件格式
mp3、wav、ogg、wma、aac、ac3、m4a、ts、g722
包含音频的视频文件格式
avi、flv、mp4、mpg、asf、wmv、mov、rmvb、rm
仅转写双声道音频文件中第一声道的内容
1.2 支持音频详情
音频时长
不超过60秒
音频大小
不超过20 MB
音频声道
单声道、双声道
采样率
支持16000、44100和48000 Hz
采样精度
16 bits、8 bits
注意
a. opus编码的音频不支持44100 Hz的采样率
b. 仅 wav封装的pcm格式音频支持 8 bits采样精度
2 接入地址
http(https)://asr-prod.yitutech.com
3 请求参数
格式
application/json
方法
POST
Path
/v2/asr
Header
Header中输入正确的账号、时间戳及签名(x-dev-id、x-signature、x-request-send-timestamp),具体请参考[授权和接入]
Body
参数名
类型
是否必须
描述
audioUrlstringaudioUrl和audioBase64必须二选一。 音频文件的URL,支持http和https
audioBase64stringaudioUrl和audioBase64必须二选一。音频数据,采用符合urlenco标准的Base64编码
langstring仅支持“MANDARIN”普通话
scenestring通用情景模式GENERAL,即针对不同应用场景的定制模型。当前默认支持GENERAL
customWordsarray(string)热词优化转写能力,可添加100个词。支持每个热词中文2-4个字。
useCustomWordsIdsarray(integer)使用已创建的热词词库ID,可在[接口管理-热词管理]页面创建或管理词库,获得词库ID
词库个数不得超过10个
clientInfoJSON Object客户端的信息,填写后可通过返回进行透传
clientInfo
参数名
类型
是否必须
描述
userIdstring用户ID,唯一标识
roomIdstring房间ID
userNickstring用户昵称
macstringmac地址
imeistring硬件设备码
imsistring运营商设备码
umidstring设备指纹
uipstring用户IP
deviceIdstring设备ID
audioNamestring音频名称
4 返回参数
参数名
类型
说明
rtninteger请求处理结果的状态码,0表示成功,否则表示异常,参考[状态码查询]
messagestring请求处理结果的debug提示信息
requestIdstring请求的唯一标示符
resultTextstring转写结果
clientInfoJSON Object客户端的信息,填写后可通过返回进行透传
5 参考示例
5.1 请求示例
{
  "audioBase64": "thisisBase64=="
}
5.2 返回示例
{
  "rtn": 0,
  "message": "success",
  "requestId": "94e1e228b1c149b9a8d2c262da2b5593",
  "resultText": "今天天气真好。",
  "clientInfo": null
}
6 演示 Demo