如何根据预定义的语言类别衡量文档的独特性？

2024-06-02 • 问答

我有3类单词，分别对应于不同类型的心理驱动力（对动力的需求，对成就的需求和与组织的联系）。目前，对于我样本中的每个文档（n = 100,000），我正在使用一种工具来计算每个类别中的单词数，并通过将原始单词数转换为基于总单词数的百分比来计算每个类别的比例得分在文字中使用。

                 n-power   n-achieve  n-affiliation
Document1        0.010      0.025      0.100  
Document2        0.045      0.010      0.050
:                :          :          :
:                :          :          :
Document100000   0.100      0.020      0.010

对于每个文档，我希望获得一种独特性的度量，该度量表明三种心理类别上的文档内容与所有文档（即样本中的原型文档）的平均内容之间的差异程度。有办法吗？

基本上，您有集群问题。当前，您用3个数字来表示每个文档，让我们称其为向量（本质上是煮一些嵌入物）。做你想做的就可以 1）计算整个集合的平均向量。基本上将每一列中的所有数字相加，然后除以文档数。 2）选择一个您喜欢的度量，该度量将反映您的文档向量与平均值的对齐方式。你可以用（欧几里得） sklearn.metrics.pairwise.euclidean_distances 或余弦 sklearn.metrics.pairwise.cosine_distances X将是您文档向量的列表，Y将是列表中的单个平均向量。这是一个不错的起点。

如果我愿意，我将忽略平均矢量方法，因为您实际上正在处理聚类问题。所以我会用KMeans 在这里guide

中查看更多

希望这会有所帮助！

如何根据预定义的语言类别衡量文档的独特性？

iCMS 回答：如何根据预定义的语言类别衡量文档的独特性？

大家都在问