Amazon Sagemaker中用于主题建模的LDA和NTM有什么区别？

2024-05-19 • 问答

我正在寻找LDA和NTM之间的区别。在NTM上使用LDA有哪些用例？

根据AWS文档：

LDA：Amazon SageMaker潜在Dirichlet分配（LDA）算法是一种无监督的学习算法，试图将一组观察结果描述为不同类别的混合。 LDA最常用于发现文本语料库中文档共享的用户指定数量的主题。

尽管您可以将Amazon SageMaker NTM和LDA算法都用于主题建模，但是它们是不同的算法，可以预期在相同的输入数据上产生不同的结果。

LDA和NTM具有不同的科学逻辑：

SageMaker LDA（Latent Dirichlet Allocation，不要与Linear Discriminant Analysis混淆）模型通过假设文档是通过对有限主题集中的单词进行采样而形成的。它由2个移动部分组成：（1）每个主题的单词组成和（2）每个文档的主题组成

另一方面，

SageMaker NTM并未明确学习每个主题的单词分布，而是一个神经网络，它使文档穿过瓶颈层并尝试再现输入文档（大概是变体自动编码器（VAE）），根据AWS documentation）。这意味着瓶颈层最终包含所有必要信息以预测文档组成，并且其系数可以视为主题

以下是选择其中一项的注意事项：

基于VAE的方法（例如SageMaker NTM）可能比LDA更好地识别相关主题，大概是因为它们可能具有更深的表达能力。 A benchmark here（具有与SageMaker NTM可能不同的VAE-NTM）表明，NTM在主题连贯性和困惑度两个指标上都可以击败LDA
到目前为止，社区对LDA的了解似乎比对VAE，NTM和SageMaker NTM的了解要多。如果您使用LDA，这意味着可能会更轻松地学习和排除故障。尽管事情变化很快，所以随着DL知识的增长，这一点可能越来越不重要
SageMaker NTM具有比SageMaker LDA更灵活的硬件选项，并且可以更好地扩展：SageMaker NTM可以在CPU，GPU，多GPU实例和多实例上下文中运行。例如，正式的NTM演示使用2个ml.c4.xlarge实例的临时集群。 SageMaker LDA当前仅支持单实例CPU培训。