可以在干扰中从TfidfVectorizer删除停用词列表

我有一个很大的文本语料库,而sklearn创建了200万个(不频繁的)停用词,是否需要将其存储到磁盘上?我是否可以删除停用词列表?

dasiy123zs 回答:可以在干扰中从TfidfVectorizer删除停用词列表

如果要从词汇表中删除停用词,可以将stop_words参数设置为None

另一方面,如果要删除不常用的单词,请在min_df中使用TfidfVectorizer param。

min_df的默认值为0,如果将该值设置为0.2左右,则词汇量将大大减少。

本文链接:https://www.f2er.com/3164294.html

大家都在问