鉴于:Hive Version 2.3.0 onwards
,我有一个Hive
表和很长一段时间的固定DDL。现在raw data
与columns
文件以text
的顺序出现变化,并且必须以固定分区标准的parquet
格式存储数据。我的问题是当传入数据为different arrangement of columns
时如何处理这种情况。
示例:
CREATE TABLE users ( col1 string,col2 int,col3 string ... )
PARTITIONED BY (...)
STORED AS ParqUET;
输入数据的排列方式类似于
col1 col3 col2
(row) x p 1
y q 2
在text
文件中,请注意列顺序更改。
我很难找到正确的信息,任何人都可以解释最佳做法来应对这种情况吗?如果是小文件,我们可以使用脚本来更正文本,但是如果它是成批的并且每次文本文件具有不同的排列方式,该怎么办?感谢任何答案/反馈。