是否可以使用标记的数据训练情感分类模型，然后将其用于预测未标记的数据的情感？

2024-05-19 • 问答

我想使用机器学习（文本分类）方法进行情感分析。例如nltk朴素贝叶斯分类器。但是问题是我的少量数据被标记了。（例如，将100篇文章标记为正面或负面），而500篇文章未标记。我当时以为我用标签数据训练分类器，然后尝试预测未标签数据的情绪。可能吗？我是机器学习的初学者，对此了解不多。

我正在使用python 3.7。

先谢谢您。

是否可以用标记的数据训练情感分类模型，然后将其用于预测未标记的数据的情感？

是的。这基本上是监督学习的定义。

即您可以对带有标签的数据进行训练，以便随后可以对不带有标签的数据进行分类。

（任何有关监督学习的书都会有代码示例。）

我想知道您的问题是否真的是：我可以使用监督学习来建立模型，为另外500篇文章分配标签，然后对全部600篇文章进行进一步的机器学习吗？答案仍然是肯定的，但是质量会介于这两个极端之间：

将随机标签分配给500。结果不好。
让域专家为这500个标签分配正确的标签。好的结果。

您的模型可能介于这两个极端之间。知道它在哪里很有用，所以知道是否值得使用这些数据。您可以通过抽样（例如25条记录）并由领域专家分配它们来获得估计值。如果所有25条记录都匹配，则您的其他475条记录也很有可能获得了良好的标签。如果例如在25个匹配中只有10个匹配，模型更接近频谱的随机末端，使用其他475条记录可能不是一个好主意。

（“ 10”，“ 25”等是任意示例；请根据不同标签的数量以及对结果的期望置信度进行选择。）

是否可以使用标记的数据训练情感分类模型，然后将其用于预测未标记的数据的情感？

twinslovewei 回答：是否可以使用标记的数据训练情感分类模型，然后将其用于预测未标记的数据的情感？

大家都在问