是否可以使用标记的数据训练情感分类模型,然后将其用于预测未标记的数据的情感?

我想使用机器学习(文本分类)方法进行情感分析。例如nltk朴素贝叶斯分类器。 但是问题是我的少量数据被标记了。 (例如,将100篇文章标记为正面或负面),而500篇文章未标记。 我当时以为我用标签数据训练分类器,然后尝试预测未标签数据的情绪。 可能吗? 我是机器学习的初学者,对此了解不多。

我正在使用python 3.7。

先谢谢您。

twinslovewei 回答:是否可以使用标记的数据训练情感分类模型,然后将其用于预测未标记的数据的情感?

  

是否可以用标记的数据训练情感分类模型,然后将其用于预测未标记的数据的情感?

是的。这基本上是监督学习的定义。

即您可以对带有标签的数据进行训练,以便随后可以对不带有标签的数据进行分类。

(任何有关监督学习的书都会有代码示例。)

我想知道您的问题是否真的是:我可以使用监督学习来建立模型,为另外500篇文章分配标签,然后对全部600篇文章进行进一步的机器学习吗?答案仍然是肯定的,但是质量会介于这两个极端之间:

  • 将随机标签分配给500。结果不好。
  • 让域专家为这500个标签分配正确的标签。好的结果。

您的模型可能介于这两个极端之间。知道它在哪里很有用,所以知道是否值得使用这些数据。您可以通过抽样(例如25条记录)并由领域专家分配它们来获得估计值。如果所有25条记录都匹配,则您的其他475条记录也很有可能获得了良好的标签。如果例如在25个匹配中只有10个匹配,模型更接近频谱的随机末端,使用其他475条记录可能不是一个好主意。

(“ 10”,“ 25”等是任意示例;请根据不同标签的数量以及对结果的期望置信度进行选择。)

本文链接:https://www.f2er.com/3098018.html

大家都在问