我有一个列表列表,每个列表包含字符串值(〜130.000个列表,每个列表都有〜15个项目)。列表可能包含重复项,但这是设计使然,它们需要保留=我在这里不能使用集合。
我创建每个列表值(〜5.600.000个元组)的元组组合,并希望计算每个元组值单独出现并一起出现在列表中的次数。
因此,我需要为每个元组值查找它们在列表中出现的次数。因此(5.600.000 *(130.000 * 15))......很多。
示例:
tags: [['a','b','c','aa','bb','2019'],['a','d','18','gb'],['aa','a','dd','fb','la'],'ddaa','k','l']]
tagSet: {('a','aa'),('a','b'),('b','d'),('aa','d')}
for tagTuple in tagSet:
tagA = tagTuple[0]
tagB = tagTuple[1]
sumA = sum(tagA in item for item in tags )
sumB = sum(tagB in item for item in tags )
sumAB = ??
对于元组(a,b),结果应为
a: 3,b:2,a+b: 1
但是我如何计算a和b出现在每个列表中的次数?
由于我需要检查大量的列表和元组,因此需要一种高效的方法。