我想用 Gensim 训练一个 word2vec 模型。我预处理了我的语料库,该语料库由来自特定报纸的数十万篇文章组成。我对它们进行了预处理(小写、词形还原、去除停用词和标点符号等),然后制作一个列表列表,其中每个元素都是一个单词列表。
corpus = [['first','sentence','second','dictum','third','saying','last','claim'],['first','adage','judgment','pronouncement']]
我想知道这是否正确,或者应该如下所示:
corpus = [['first','sentence'],['second','dictum'],['third','saying'],['last','adage'],'judgment'],'pronouncement']]