NLP-最佳文档嵌入库

2024-04-28 • 问答

早上好，同胞（？）。

我有一个方法论上的问题，在很短的时间内就被深入的研究所迷惑。

问题来自于以下问题：我需要对文档应用半监督或非监督群集。我有约300个使用多标签分类的文档和大约3400个未分类的文档。在接下来的几天中，无人监管的文档数量可能会达到约10,000。

主要思想是基于手头的标签应用半监督聚类。另外，可以完全不受监督地进行软集群。

我们曾考虑过为整个文档创建嵌入，但是这里存在一个困惑：哪个库最适合此类任务？

我认为最重要的是在于整个文档的上下文。据我所知，berT和FastText提供上下文相关的单词嵌入，但不提供整个文档嵌入。另一方面，Gensim的Doc2Vec与上下文无关，对吗？

我想我看到了一种通过HuggingFace API使用berT训练句子嵌入的方法，并且想知道将整个文档视为一个句子是否有用。

您有什么建议吗？我可能暴露出对此事的完全无知和困惑，但我的大脑融化了。

非常感谢您的宝贵时间。

万岁！

编辑以回复@gojomo：

我的文档平均约180个字。原始任务是多标签文本分类，即每个文档可以具有1到N个标签，现在标签数为N = 18。它们高度不平衡。由于几个问题，到目前为止只有330个带标签的文档，我们要求文档的提供者也提供未标签的数据，该数据应达到10k的数量级。我使用了FastText分类模式，但结果显然很糟糕。我还运行了带有Doc2Vec文档嵌入的K-NN，但是结果显然仍然很糟糕。我将使用基于berT的生物医学模型（例如BioberT和SciberT）在文档上生成NER标签（在特定于域的数据集上进行训练），以供以后应用分类器。既然我们有未贴标签的文档可供使用，我们想冒险进入半监督分类或非监督聚类，只是为了探索可能性。我不得不说这只是一个硕士论文。

NLP-最佳文档嵌入库

joshuasc 回答：NLP-最佳文档嵌入库

大家都在问