Amazon Sagemaker中用于主题建模的LDA和NTM有什么区别?

我正在寻找LDA和NTM之间的区别。在NTM上使用LDA有哪些用例?

根据AWS文档:

LDA:Amazon SageMaker潜在Dirichlet分配(LDA)算法是一种无监督的学习算法,试图将一组观察结果描述为不同类别的混合。 LDA最常用于发现文本语料库中文档共享的用户指定数量的主题。

尽管您可以将Amazon SageMaker NTM和LDA算法都用于主题建模,但是它们是不同的算法,可以预期在相同的输入数据上产生不同的结果。

dangdangheta 回答:Amazon Sagemaker中用于主题建模的LDA和NTM有什么区别?

LDA和NTM具有不同的科学逻辑:

SageMaker LDA(Latent Dirichlet Allocation,不要与Linear Discriminant Analysis混淆)模型通过假设文档是通过对有限主题集中的单词进行采样而形成的。它由2个移动部分组成:(1)每个主题的单词组成和(2)每个文档的主题组成

另一方面,

SageMaker NTM并未明确学习每个主题的单词分布,而是一个神经网络,它使文档穿过瓶颈层并尝试再现输入文档(大概是变体自动编码器(VAE) ),根据AWS documentation)。这意味着瓶颈层最终包含所有必要信息以预测文档组成,并且其系数可以视为主题

以下是选择其中一项的注意事项:

  1. 基于VAE的方法(例如SageMaker NTM)可能比LDA更好地识别相关主题,大​​概是因为它们可能具有更深的表达能力。 A benchmark here(具有与SageMaker NTM可能不同的VAE-NTM)表明,NTM在主题连贯性和困惑度两个指标上都可以击败LDA
  2. 到目前为止,社区对LDA的了解似乎比对VAE,NTM和SageMaker NTM的了解要多。如果您使用LDA,这意味着可能会更轻松地学习和排除故障。尽管事情变化很快,所以随着DL知识的增长,这一点可能越来越不重要
  3. SageMaker NTM具有比SageMaker LDA更灵活的硬件选项,并且可以更好地扩展:SageMaker NTM可以在CPU,GPU,多GPU实例和多实例上下文中运行。例如,正式的NTM演示使用2个ml.c4.xlarge实例的临时集群。 SageMaker LDA当前仅支持单实例CPU培训。
本文链接:https://www.f2er.com/3005447.html

大家都在问