如何处理高度不平衡的Issue(Text)分类数据集?

数据集的大小:81256, 班级:200, 每个类别的范围从特定类别下的2757到特定类别下的低至10不等。 如何平衡此数据集以及应使用哪种类型的算法来训练模型。 现在,我已经使用random over sampler进行采样,并使用Linear SVC来训练模型。

AAA19870114 回答:如何处理高度不平衡的Issue(Text)分类数据集?

这是一个非常笼统的问题,但是一些处理文本中不平衡数据(不仅是)的方法是:

  • 收集更多数据
  • 少数民族样本过采样
  • 欠采样多数类
  • 通过反向翻译进行加法:使用某种翻译API(Google翻译),将您的文本翻译成另一种语言,然后将翻译后的文本翻译回原始语言
  • 通过同义词扩展:用其同义词替换文本中的某些单词
  • 使用不需要大量数据进行微调的预训练模型(BERT,GTP-2)
本文链接:https://www.f2er.com/3165771.html

大家都在问