数据集的大小:81256, 班级:200, 每个类别的范围从特定类别下的2757到特定类别下的低至10不等。 如何平衡此数据集以及应使用哪种类型的算法来训练模型。 现在,我已经使用random over sampler进行采样,并使用Linear SVC来训练模型。
AAA19870114 回答:如何处理高度不平衡的Issue(Text)分类数据集?
这是一个非常笼统的问题,但是一些处理文本中不平衡数据(不仅是)的方法是:
- 收集更多数据
- 少数民族样本过采样
- 欠采样多数类
- 通过反向翻译进行加法:使用某种翻译API(Google翻译),将您的文本翻译成另一种语言,然后将翻译后的文本翻译回原始语言
- 通过同义词扩展:用其同义词替换文本中的某些单词
- 使用不需要大量数据进行微调的预训练模型(BERT,GTP-2)