实时语音识别
将音频流实时识别为文字,并返回每句话的开始和结束时间,不限时长,适用于音视频实时字幕、大型赛制解说等场景