我正在做一个大学项目。我们正在处理带字幕的食物数据集。目前,我们的数据集包括字幕和非字幕,食物和食物相关图片。
我有2个问题: 1)带字幕的图像数量少于未带字幕的图像数量。 2)一些标题仅是食物名称,而其他标题则具有有关食物状态,食物外观等的信息。
由于这些问题,我不确定如何有效使用未字幕的数据。
我可以运行带有LSTM的集成cnn和RNN来制作字幕图像。但是由于未字幕的图像数据集要比字幕的要大,因此如何有效地使用数据。
或者我应该启动聚类cnn算法来查找相似的图像,然后使用带有标题的图像的照片ID并将其提供给聚类。如果是这样,那么考虑这样一个情况,该情况由两个带字幕的图像和一个带非字幕的图像组成,应为该带字幕的图像赋予哪个字幕?
我用过Spacy并去除了字幕中的无用信息。就像摆脱了介词和其他无用的信息一样。
食品数量 无标题的是:57906 有字幕:56968 非食品:85126
有什么好的方法可以有效地使用数据集?