我正在寻找LDA和NTM之间的区别。在NTM上使用LDA有哪些用例?
根据AWS文档:
LDA:Amazon SageMaker潜在Dirichlet分配(LDA)算法是一种无监督的学习算法,试图将一组观察结果描述为不同类别的混合。 LDA最常用于发现文本语料库中文档共享的用户指定数量的主题。
尽管您可以将Amazon SageMaker NTM和LDA算法都用于主题建模,但是它们是不同的算法,可以预期在相同的输入数据上产生不同的结果。
我正在寻找LDA和NTM之间的区别。在NTM上使用LDA有哪些用例?
根据AWS文档:
LDA:Amazon SageMaker潜在Dirichlet分配(LDA)算法是一种无监督的学习算法,试图将一组观察结果描述为不同类别的混合。 LDA最常用于发现文本语料库中文档共享的用户指定数量的主题。
尽管您可以将Amazon SageMaker NTM和LDA算法都用于主题建模,但是它们是不同的算法,可以预期在相同的输入数据上产生不同的结果。
LDA和NTM具有不同的科学逻辑:
SageMaker LDA(Latent Dirichlet Allocation,不要与Linear Discriminant Analysis混淆)模型通过假设文档是通过对有限主题集中的单词进行采样而形成的。它由2个移动部分组成:(1)每个主题的单词组成和(2)每个文档的主题组成
另一方面,SageMaker NTM并未明确学习每个主题的单词分布,而是一个神经网络,它使文档穿过瓶颈层并尝试再现输入文档(大概是变体自动编码器(VAE) ),根据AWS documentation)。这意味着瓶颈层最终包含所有必要信息以预测文档组成,并且其系数可以视为主题
以下是选择其中一项的注意事项:
ml.c4.xlarge
实例的临时集群。 SageMaker LDA当前仅支持单实例CPU培训。