是否仅根据我的语料库或外部数据计算主题一致性（gensim CoherenceModel）？

2024-05-18 • 问答

我正在使用LDA对20世纪英语对应语料库进行建模，并且一直使用主题连贯性（以及轮廓分数）来评估我的主题。我使用gensim的CoherenceModel并保持c_v的连贯性，我得到的最高评分是我测试过的所有模型中的0.35分数，即使是最有意义的主题即使经过大量的预处理和超参数比较，我也可以进行定性评估。

所以我基本上接受了那是我所能得到的最好的，但是为了写这篇文章，我一直在阅读有关主题一致性的文章，并且我知道这是一条管道，它可以模拟人类的判断。但是，我看不到一件事能找到明确的信息：是完全基于我的语料库的计算还是基于某些外部数据？像接受过外部语料库培训的人，可能与我的领域无关？我应该改用u_mass吗？

qwe8530748 回答：是否仅根据我的语料库或外部数据计算主题一致性（gensim CoherenceModel）？

是的，除了u_mass之外，它们都使用外部参考数据集。但是，这可能不是一件坏事，因为这些参考数据集提供了更丰富的信息。

data-science topic-modeling

本文链接：https://www.f2er.com/3088547.html

是否仅根据我的语料库或外部数据计算主题一致性（gensim CoherenceModel）？

qwe8530748 回答：是否仅根据我的语料库或外部数据计算主题一致性（gensim CoherenceModel）？

大家都在问