我有一个csv文件,其中的字段用双引号引起来。我使用OpenCSVSerDe在其上创建了Redshift外部表。 问题是我文件中的行之一在双引号外有一个尾随空格。像这样:
"name1","123","something"
"name2","234","somethingelse"
现在在外部表上执行SELECT,第一列的第一行返回NULL。
123 something
name2 234 somethingelse
但是,S3 SELECT功能返回的正确值如下:
name1 123 something
name2 234 somethingelse
在表级别上是否有任何属性可以用来正确检索数据,或者这是一个限制?
表DDL:
CREATE EXTERNAL TABLE test_table
(
column1 varchar(50),column2 varchar(50),column3 varchar(100)
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES ('separatorChar' = ',') --checked with and without this
STORED AS textfile
LOCATION 's3://s3bucketlocation'
;