我有3类单词,分别对应于不同类型的心理驱动力(对动力的需求,对成就的需求和与组织的联系)。目前,对于我样本中的每个文档(n = 100,000),我正在使用一种工具来计算每个类别中的单词数,并通过将原始单词数转换为基于总单词数的百分比来计算每个类别的比例得分在文字中使用。
n-power n-achieve n-affiliation
Document1 0.010 0.025 0.100
Document2 0.045 0.010 0.050
: : : :
: : : :
Document100000 0.100 0.020 0.010
对于每个文档,我希望获得一种独特性的度量,该度量表明三种心理类别上的文档内容与所有文档(即样本中的原型文档)的平均内容之间的差异程度。有办法吗?