使用python从零开始构建语音到文本系统

2024-05-08 • 问答

我需要语音转文本系统，以便可以将音频文件转录为文本格式。在进行研究时，我发现了由大公司（例如Amazon Transcribe，Google Speech to Text，IBM Watson等）创建的系统。并发现python内部的所有库都使用这些API。

如果我想自己创建一个这样的系统，将采取哪些步骤？我找不到关于此的任何详细文章。如何构建自己的语音识别系统。

我要创建自己的系统的主要原因是因为出于安全原因我无法将音频文件发送到外部API。

主要目标是，我有一些主要使用英语交谈的人的录音，我想将该音频转录为文本。

如果您还有其他想法，而不是将音频文件发送到外部系统，请告诉我。

一个开始的地方是查看www.voxforge.org的产品；请查看教程和论坛部分，以大致了解Julius和CMU Sphinx等开源项目的使用。这是一个相当广泛的主题，您会发现很多人在您之前走过了这条路，因此您可以从他们的经验中学习。

本文链接：https://www.f2er.com/3126004.html