我正在使用 bert 来获取多词之间的相似度。这是我用于嵌入的代码:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('bert-large-uncased-whole-word-masking')
words = [
"Artificial intelligence","Data mining","Political history","Literature book"]
我还有一个包含 540000 个其他单词的数据集。
Vocabs = [
"Winter flooding","Cholesterol diet",....]
问题是当我想将 Vocab 嵌入到向量中时,它永远需要时间。
words_embeddings = model.encode(words)
Vocabs_embeddings = model.encode(Vocabs)
有没有办法让它更快?或者我想在 for 循环中嵌入 Vocab 并将输出向量保存在一个文件中,这样我就不必在每次需要时嵌入 540000 个 vocabs。有没有办法将嵌入保存到文件并再次使用它? 我会非常感谢您花时间帮助我。