SQL(Hive)分组方式使用空值作为通配符

我有一张这样的桌子:

group   val1   val2   val3

group1   5      .      .
group1   .      2      1
group1   .      .      3
group2   1      4      .
group2   .      .      8
group2   2      .      7

我需要使用空值(。)作为通配符,对Hive中每个组的所有可能组合的出现进行计数。这会给我这样的结果:

group   val1   val2   val3  cnt

group1   5      2      1     2
group1   5      2      3     2
group2   1      4      8     2
group2   2      4      8     1
group2   2      4      7     1

我知道我可以通过选择所有不同的group-val1对,将其与所有不同的group-val2对完全连接,以及将其与所有不同的group-val3对完全连接来做到这一点。这为我提供了每个组的所有可能组合,然后可以与表进行内部联接,计算出原始数据的行是组合子集的情况。

类似这样的东西:

create table my_results as 

with combos as (
select *
from (select distinct group,val1 from data) A
full join (select distinct group,val2 from data) B
    on A.group = B.group
full join (select distinct group,val3 from data) C
    on A.group = C.group 
)

select A.group,A.val1,A.val2,A.val3,count(*)
from combos A
inner join data B
    on A.group = B.group
    and (A.val1 = B.val1 OR B.val1 is null)
    and (A.val2 = B.val2 OR B.val2 is null)
    and (A.val3 = B.val3 OR B.val3 is null)
group by A.group,A.val3

但是!我的数据集非常大(亿万行),我可以预期的所有可能组合的数量也非常大(十万行)。这样的连接太大了。

还有另一种方法吗?我想知道是否可以使用正则表达式,但是我不知道从哪里开始。

sdwdwz 回答:SQL(Hive)分组方式使用空值作为通配符

在示例数据中,只有第三列具有多个值。因此,您只需为其他两列填写一个值:

select group,max(max(col1)) over (partition by group) as col1,max(max(col2)) over (partition by group) as col2,col3,count(*)
from data
group by group;
本文链接:https://www.f2er.com/3120857.html

大家都在问