我有一个很大的文本语料库,而sklearn创建了200万个(不频繁的)停用词,是否需要将其存储到磁盘上?我是否可以删除停用词列表?
dasiy123zs 回答:可以在干扰中从TfidfVectorizer删除停用词列表
如果要从词汇表中删除停用词,可以将stop_words
参数设置为None
。
另一方面,如果要删除不常用的单词,请在min_df
中使用TfidfVectorizer
param。
min_df
的默认值为0,如果将该值设置为0.2左右,则词汇量将大大减少。