如何处理高度不平衡的Issue（Text）分类数据集？

2024-05-05 • 问答

数据集的大小：81256，班级：200，每个类别的范围从特定类别下的2757到特定类别下的低至10不等。如何平衡此数据集以及应使用哪种类型的算法来训练模型。现在，我已经使用random over sampler进行采样，并使用Linear SVC来训练模型。

这是一个非常笼统的问题，但是一些处理文本中不平衡数据（不仅是）的方法是：