1 接口概述

依图短语音听写接口可将时长不超过60秒的音频文件转写成文字，支持音频文件Base64编码后上传。

1.1 支持格式

音频文件格式

mp3、wav、ogg、wma、aac、ac3、m4a、ts、g722

包含音频的视频文件格式

avi、flv、mp4、mpg、asf、wmv、mov、rmvb、rm

注

仅转写双声道音频文件中第一声道的内容

1.2 支持音频详情

音频时长

不超过60秒

音频大小

不超过20 MB

音频声道

单声道、双声道

采样率

支持16000、44100和48000 Hz

采样精度

16 bits、8 bits

注意

a. opus编码的音频不支持44100 Hz的采样率
b. 仅 wav封装的pcm格式音频支持 8 bits采样精度

2 接入地址

http(https)://asr-prod.yitutech.com

3 请求参数

格式

application/json

方法

POST

Path

/v2/asr

Header

Header中输入正确的账号、时间戳及签名（x-dev-id、x-signature、x-request-send-timestamp），具体请参考[授权和接入]

Body

参数名	类型	是否必须	描述
audioUrl	string	否	audioUrl和audioBase64必须二选一。音频文件的URL，支持http和https
audioBase64	string	否	audioUrl和audioBase64必须二选一。音频数据，采用符合urlenco标准的Base64编码
lang	string	否	仅支持“MANDARIN”普通话
scene	string	否	通用情景模式GENERAL，即针对不同应用场景的定制模型。当前默认支持GENERAL
customWords	array（string）	否	热词优化转写能力，可添加100个词。支持每个热词中文2-4个字。
useCustomWordsIds	array（integer）	否	使用已创建的热词词库ID，可在[接口管理-热词管理]页面创建或管理词库，获得词库ID 词库个数不得超过10个
clientInfo	JSON Object	否	客户端的信息，填写后可通过返回进行透传

clientInfo

4 返回参数

参数名	类型	说明
rtn	integer	请求处理结果的状态码，0表示成功，否则表示异常，参考[状态码查询]
message	string	请求处理结果的debug提示信息
requestId	string	请求的唯一标示符
resultText	string	转写结果
clientInfo	JSON Object	客户端的信息，填写后可通过返回进行透传

5 参考示例

5.1 请求示例

{
  "audioBase64": "thisisBase64=="
}

5.2 返回示例

{
  "rtn": 0,
  "message": "success",
  "requestId": "94e1e228b1c149b9a8d2c262da2b5593",
  "resultText": "今天天气真好。",
  "clientInfo": null
}

6 演示 Demo