我需要语音转文本系统,以便可以将音频文件转录为文本格式。 在进行研究时,我发现了由大公司(例如Amazon Transcribe,Google Speech to Text,IBM Watson等)创建的系统。 并发现python内部的所有库都使用这些API。
如果我想自己创建一个这样的系统,将采取哪些步骤?我找不到关于此的任何详细文章。如何构建自己的语音识别系统。
我要创建自己的系统的主要原因是因为出于安全原因我无法将音频文件发送到外部API。
主要目标是,我有一些主要使用英语交谈的人的录音,我想将该音频转录为文本。
如果您还有其他想法,而不是将音频文件发送到外部系统,请告诉我。