通用句子编码器可实现大文档相似度

2024-05-19 • 问答

我需要创造一种“搜索引擎”的体验：通过简短的查询（几个词），我需要在成千上万的文档集中找到相关的文档。

在分析了几种方法之后，我使用Google的Universal Sentence Encoder获得了很好的结果。问题是我的文件可能很长。对于这些非常长的文本，性能似乎下降了，所以我的想法是将文本切成句子/段落。

所以我最终得到了每个文档的向量列表（代表文档的每个部分）。

我的问题是：是否有最先进的算法/方法可以从向量列表中计算得分？我真的不希望将它们合并为一个，因为它会产生与以前相同的效果（相关部分将在文档中稀释）。是否有任何计分算法来总结查询与文本不同部分之间的多个余弦相似度？

重要信息：我可以输入简短的文字。因此，一个文档最多可以有1个矢量。