我对蜂巢中的倾斜连接有一些疑问。
1.when何时将使用通用联接来处理数据,因为我仅在设置打击属性后才看到地图联接
- 设置hive.optimize.skewjoin = true;
- 设置hive.mapjoin.smalltable.filesize = 2;
2。为什么dosn`t偏斜连接与左连接一起工作
下面是表和sql:
tmp.skew_large_table 字段 imei,imsi,mac,phone,data_date;
total rows:290,0808
skew key : 868407035454956 670081
-----------
tmp.test_skew_small_table 字段 imei,package,data_date
total rows:857,6164
skew key : 868407035454956 10461
-----------
sql:
select a.*,b.*
from tmp.skew_large_table a
join
tmp.test_skew_small_table b
on a.imei=b.imei;