我在一个大型语料库(50GB的文本,1.6亿行)上训练了gensim hdp模型。结果是一组20个主题,所有主题几乎都相同,但词性略有不同。
我用于预处理输入文本的管道包括一些简单的方法,例如文本规范化,停用词删除,计算二元组, tf-idf ,并且忽略所有少于20个单词的句子。
是否有使用hdp进行主题建模的直接方法或提供更准确结果的任何类似方法?
我在一个大型语料库(50GB的文本,1.6亿行)上训练了gensim hdp模型。结果是一组20个主题,所有主题几乎都相同,但词性略有不同。
我用于预处理输入文本的管道包括一些简单的方法,例如文本规范化,停用词删除,计算二元组, tf-idf ,并且忽略所有少于20个单词的句子。
是否有使用hdp进行主题建模的直接方法或提供更准确结果的任何类似方法?