如何格式化.wav数据以输入到密集的神经网络层？

2024-05-20 • 问答

我是音频处理领域的新手，需要一些帮助。

我目前正在为一个项目在C中实施预训练的Tensorflow Key Word Searching Neural Net（KWS NN）。该NN与one from the Simple Audio Recognition Tensorflow Tutorials几乎相同，甚至使用Speech Commands dataset.。它由几个密集层组成-供参考，this是KWS NN .pb文件的外观就像使用Netron可视化时一样。

我已经从预训练的模型中提取了权重，并编写了密集层乘法，但是没有知识来测试它对于给定的输入是否产生正确的输出。我希望能够从语音命令数据集中获取一些.wav文件，并将其转换为KWS NN的正确输入格式。从the first part of the Neural Net收集的数据来看，我需要解码.wav文件，将其转换为音频声谱图，然后将所有内容转换为一组MFCC。然后，我可以将它们展平并输入到第一个密集层中。

我尝试了各种教程，但是似乎没有任何效果。有人对如何进行WAV>频谱图> MFCC转换有一些建议，以便我可以展平并将其馈送到密集层吗？

非常感谢。

找到预训练模型here!的.pb

如何格式化.wav数据以输入到密集的神经网络层？

iCMS 回答：如何格式化.wav数据以输入到密集的神经网络层？

大家都在问