H5网页js实现录音上传 百度语音识别asr

2023-7-28|2023-9-7
夜火/xloong
夜火/xloong
type
Post
status
Published
date
Jul 28, 2023
slug
h5-record-baidu-asr
summary
之前接入的GPT,现在有个需求,是提问直接语音输入,这就涉及到录音,上传,识别。
tags
开发
javascript
category
技术分享
icon
password
URL
Property
Sep 7, 2023 04:44 AM
之前接入的GPT,现在有个需求,是提问直接语音输入,这就涉及到录音,上传,识别。

录音

navigator.mediaDevices.getUserMedia

刚开始使用 navigator.mediaDevices.getUserMedia 进行录音,但是总是碰到奇奇怪怪的问题。

微信API 录音 上传 识别

接着想到以前实现过的调用微信API,进行录音上传,也找到一个可用的代码,奈何以后可能不仅在微信内使用,因此需要脱离微信的API。

Recorder用于html5录音

后来发现了一个实现的比较好的js录音源码 Recorder github
主页上示例很多,我就不贴代码了
BTW:之前 getUserMedia 出奇奇怪怪的问题,可能是因为电脑话筒权限的问题,我在系统上给禁止了,浏览器上开了权限也没用。

上传

上传没太多好说的,js直接ajax上传就行了。
技术验证的时候,是语音文件上传到服务器,服务器再请求百度语音识别接口进行识别。后面正式写的时候想节省流程,前端录音完直接上传到百度语音识别,碰到跨域,才反应过来还有跨域的问题

百度语音识别asr

这个好像也没什么可说的 直接看百度的文档就好 github postman
拿ak sk 换access token
token 和录音文件一起提交上传就好

参考

syncthing 局域网点到点文件夹同步 电脑手机同步基于OpenAI大模型 训练自己的大模型 fine_tunes