如何格式化.wav数据以输入到密集的神经网络层?

我是音频处理领域的新手,需要一些帮助。

我目前正在为一个项目在C中实施预训练的Tensorflow Key Word Searching Neural Net(KWS NN)。该NN与one from the Simple Audio Recognition Tensorflow Tutorials几乎相同,甚至使用Speech Commands dataset.。它由几个密集层组成-供参考,this是KWS NN .pb文件的外观就像使用Netron可视化时一样。

我已经从预训练的模型中提取了权重,并编写了密集层乘法,但是没有知识来测试它对于给定的输入是否产生正确的输出。我希望能够从语音命令数据集中获取一些.wav文件,并将其转换为KWS NN的正确输入格式。从the first part of the Neural Net收集的数据来看,我需要解码.wav文件,将其转换为音频声谱图,然后将所有内容转换为一组MFCC。 然后,我可以将它们展平并输入到第一个密集层中。

我尝试了各种教程,但是似乎没有任何效果。有人对如何进行WAV>频谱图> MFCC转换有一些建议,以便我可以展平并将其馈送到密集层吗?

非常感谢。

找到预训练模型here!的.pb

iCMS 回答:如何格式化.wav数据以输入到密集的神经网络层?

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/1769868.html

大家都在问