1 接口概述
依图短语音听写接口可将时长不超过60秒的音频文件转写成文字,支持音频文件Base64编码后上传。
1.1 支持格式
音频文件格式
mp3、wav、ogg、wma、aac、ac3、m4a、ts、g722
包含音频的视频文件格式
avi、flv、mp4、mpg、asf、wmv、mov、rmvb、rm
注
仅转写双声道音频文件中第一声道的内容
1.2 支持音频详情
音频时长
不超过60秒
音频大小
不超过20 MB
音频声道
单声道、双声道
采样率
支持16000、44100和48000 Hz
采样精度
16 bits、8 bits
注意
a. opus编码的音频不支持44100 Hz的采样率
b. 仅 wav封装的pcm格式音频支持 8 bits采样精度
b. 仅 wav封装的pcm格式音频支持 8 bits采样精度
2 接入地址
http(https)://asr-prod.yitutech.com
3 请求参数
格式
application/json
方法
POST
Path
/v2/asr
Header
Header中输入正确的账号、时间戳及签名(x-dev-id、x-signature、x-request-send-timestamp),具体请参考[授权和接入]
Body
参数名 | 类型 | 是否必须 | 描述 |
---|---|---|---|
audioUrl | string | 否 | audioUrl和audioBase64必须二选一。 音频文件的URL,支持http和https |
audioBase64 | string | 否 | audioUrl和audioBase64必须二选一。音频数据,采用符合urlenco标准的Base64编码 |
lang | string | 否 | 仅支持“MANDARIN”普通话 |
scene | string | 否 | 通用情景模式GENERAL,即针对不同应用场景的定制模型。当前默认支持GENERAL |
customWords | array(string) | 否 | 热词优化转写能力,可添加100个词。支持每个热词中文2-4个字。 |
useCustomWordsIds | array(integer) | 否 | 使用已创建的热词词库ID,可在[接口管理-热词管理]页面创建或管理词库,获得词库ID 词库个数不得超过10个 |
clientInfo | JSON Object | 否 | 客户端的信息,填写后可通过返回进行透传 |
clientInfo
参数名 | 类型 | 是否必须 | 描述 |
---|---|---|---|
userId | string | 否 | 用户ID,唯一标识 |
roomId | string | 否 | 房间ID |
userNick | string | 否 | 用户昵称 |
mac | string | 否 | mac地址 |
imei | string | 否 | 硬件设备码 |
imsi | string | 否 | 运营商设备码 |
umid | string | 否 | 设备指纹 |
uip | string | 否 | 用户IP |
deviceId | string | 否 | 设备ID |
audioName | string | 否 | 音频名称 |
4 返回参数
参数名 | 类型 | 说明 |
---|---|---|
rtn | integer | 请求处理结果的状态码,0表示成功,否则表示异常,参考[状态码查询] |
message | string | 请求处理结果的debug提示信息 |
requestId | string | 请求的唯一标示符 |
resultText | string | 转写结果 |
clientInfo | JSON Object | 客户端的信息,填写后可通过返回进行透传 |
5 参考示例
5.1 请求示例
{
"audioBase64": "thisisBase64=="
}
5.2 返回示例
{
"rtn": 0,
"message": "success",
"requestId": "94e1e228b1c149b9a8d2c262da2b5593",
"resultText": "今天天气真好。",
"clientInfo": null
}