Redshift Spectrum读取的文件的数据格式是什么？

2024-04-27 • 问答

我一直在阅读Redshift Spectrum，有些事情我只是不了解。

我了解Redshift Spectrum将从存储在S3中的文件中读取数据，但是我需要存储在S3中的实际文件是什么？它是一些SQL语句吗？我可以以任何格式输入吗？假设我经营一个电子商务网站，是否为每个订单创建一个文件？还是其中包含所有命令并不断添加到其中的文件？
我仍然应该使用平面格式吗？还是我可以对这些文件中的数据做更多NoSQL类型的事情？
我每次查询时，是否仍从文件中获取数据？意思是说我运行查询1 ...更新现有文件..然后再次运行查询。我会得到不同的结果吗？还是已经以某种方式将数据提取到频谱中？

Redshift Spectrum支持以下结构化和半结构化数据格式：


AVRO

PARQUET

TEXTFILE

SEQUENCEFILE

RCFILE

RegexSerDe

优化的行列（ORC）

希腊语

OpenCSV

离子

JSON

使用CREATE EXTERNAL TABLE时，您指定 Amazon S3存储桶和路径。该路径（目录）中的所有文件都将包含在查询中。如果添加/更改/删除文件，则下次运行查询时，由于Redshift Spectrum始终会查看存储在S3中的文件，因此将包含新的/修改的数据。

Amazon Redshift Spectrum与Amazon Athena 类似。它们都允许您对存储在Amazon S3存储桶中的文件运行SQL查询。