为字幕食品数据集生成字幕

2024-05-22 • 问答

我正在做一个大学项目。我们正在处理带字幕的食物数据集。目前，我们的数据集包括字幕和非字幕，食物和食物相关图片。

我有2个问题： 1）带字幕的图像数量少于未带字幕的图像数量。 2）一些标题仅是食物名称，而其他标题则具有有关食物状态，食物外观等的信息。

由于这些问题，我不确定如何有效使用未字幕的数据。

我可以运行带有LSTM的集成cnn和RNN来制作字幕图像。但是由于未字幕的图像数据集要比字幕的要大，因此如何有效地使用数据。

或者我应该启动聚类cnn算法来查找相似的图像，然后使用带有标题的图像的照片ID并将其提供给聚类。如果是这样，那么考虑这样一个情况，该情况由两个带字幕的图像和一个带非字幕的图像组成，应为该带字幕的图像赋予哪个字幕？

我用过Spacy并去除了字幕中的无用信息。就像摆脱了介词和其他无用的信息一样。

食品数量无标题的是：57906 有字幕：56968 非食品：85126

有什么好的方法可以有效地使用数据集？