NLP-最佳文档嵌入库

早上好,同胞(?)。

我有一个方法论上的问题,在很短的时间内就被深入的研究所迷惑。

问题来自于以下问题:我需要对文档应用半监督或非监督群集。我有约300个使用多标签分类的文档和大约3400个未分类的文档。在接下来的几天中,无人监管的文档数量可能会达到约10,000。

主要思想是基于手头的标签应用半监督聚类。另外,可以完全不受监督地进行软集群。

我们曾考虑过为整个文档创建嵌入,但是这里存在一个困惑:哪个库最适合此类任务?

我认为最重要的是在于整个文档的上下文。据我所知,berT和FastText提供上下文相关的单词嵌入,但不提供整个文档嵌入。另一方面,Gensim的Doc2Vec与上下文无关,对吗?

我想我看到了一种通过HuggingFace API使用berT训练句子嵌入的方法,并且想知道将整个文档视为一个句子是否有用。

您有什么建议吗?我可能暴露出对此事的完全无知和困惑,但我的大脑融化了。

非常感谢您的宝贵时间。

万岁!

编辑以回复@gojomo:

我的文档平均约180个字。原始任务是多标签文本分类,即每个文档可以具有1到N个标签,现在标签数为N = 18。它们高度不平衡。 由于几个问题,到目前为止只有330个带标签的文档,我们要求文档的提供者也提供未标签的数据,该数据应达到10k的数量级。 我使用了FastText分类模式,但结果显然很糟糕。我还运行了带有Doc2Vec文档嵌入的K-NN,但是结果显然仍然很糟糕。 我将使用基于berT的生物医学模型(例如BioberT和SciberT)在文档上生成NER标签(在特定于域的数据集上进行训练),以供以后应用分类器。 既然我们有未贴标签的文档可供使用,我们想冒险进入半监督分类或非监督聚类,只是为了探索可能性。我不得不说这只是一个硕士论文。

joshuasc 回答:NLP-最佳文档嵌入库

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3058012.html

大家都在问