如何使用TF-IDF模型从文档中查找“缺失”或代表性不足的单词？

2024-06-02 • 问答

我专门使用gensim来构建Tfidfmodel，但我相信这更多是TF-IDF的一般问题...

假设我用10个文档构建了TF-IDF模型。如何使用此模型来检测模型中高价值的单词，但在特定的可见或不可见文档中代表性不足的单词？

例如，如果文档1-9都频繁使用“香蕉”一词，那么我怎么才能发现文档10（或未用于构建模型的文档）根本没有使用它呢？

我知道我可以从模型中提取单词和值的字典并进行自己的比较，但是我想知道是否有更好的方法。

暂时没有好的解决方案，如果你有好的解决方案，请发邮件至：iooj@foxmail.com

本文链接：https://www.f2er.com/2844240.html