对讲机语音转文本解决方案

在对讲机业务中，目前拥有语音、数据（常规数据及位置信息等）、视频等不同形式的业务体系，而语音则是最为基础以及最为重要的业务，其他业务均只是作为辅助性质。换句话来说，一旦对讲机业务没有了语音，那它也不属于“对讲机”了。

在各种生产环境中，通常通过服务器后端、调度台前端等方式进行语音的存储，以便在通话审计时调取语音作为证据链之一。目前调取语音记录的方式比较单一，只能通过时段、呼叫者身份等作为检索的条件进行查找，一旦存储了海量的语音数据时，查找会变得十分困难，甚至无法找到目标语音段。

我们公司自行研发一套语音存储检索系统，通过引入 AI 大模型，对语音建立索引和识别，用户可以通过关键词进行查找录音数据，令到查找效率、准确率得到质的提升。

基于 AI 大模型进行语音识别，我们的系统能够支持以下多种不同的语言：

中文，英语，粤语，阿拉伯语，德语，法语，西班牙语，葡萄牙语，印尼语，意大利语，韩语，俄语，泰语，越南语，日语，土耳其语，印地语，马来语，荷兰语，瑞典语，丹麦语，芬兰语，波兰语，捷克语，菲律宾语，波斯语，希腊语，匈牙利语，马其顿语，罗马尼亚语

并且支持以下中文方言：

安徽，东北，福建，甘肃，贵州，河北，河南，湖北，湖南，江西，宁夏，山东，山西，陕西，四川，天津，云南，浙江，粤语（香港口音）, 粤语（广东口音）, 吴语, 闽南语

本系统实现了性能与效率的均衡，在异步推理模式下，128 并发的该模型能够达到 2000 倍的吞吐，处理 5 个小时的音频仅需要 10 秒。支持流式/非流式一体化推理，最长一次性处理 20 分钟的音频。支持本地离线部署，实现企业/单位内部资料隔离的安全要求。