Redshift Spectrum读取的文件的数据格式是什么?

我一直在阅读Redshift Spectrum,有些事情我只是不了解。

  1. 我了解Redshift Spectrum将从存储在S3中的文件中读取数据,但是我需要存储在S3中的实际文件是什么?它是一些SQL语句吗?我可以以任何格式输入吗?假设我经营一个电子商务网站,是否为每个订单创建一个文件?还是其中包含所有命令并不断添加到其中的文件?
  2. 我仍然应该使用平面格式吗?还是我可以对这些文件中的数据做更多NoSQL类型的事情?
  3. 我每次查询时,是否仍从文件中获取数据?意思是说我运行查询1 ...更新现有文件..然后再次运行查询。我会得到不同的结果吗?还是已经以某种方式将数据提取到频谱中?
A1013737306 回答:Redshift Spectrum读取的文件的数据格式是什么?

来自Creating Data Files for Queries in Amazon Redshift Spectrum - Amazon Redshift

  

Redshift Spectrum支持以下结构化和半结构化数据格式:

     
      
  • AVRO
  •   
  • PARQUET
  •   
  • TEXTFILE
  •   
  • SEQUENCEFILE
  •   
  • RCFILE
  •   
  • RegexSerDe
  •   
  • 优化的行列(ORC)
  •   
  • 希腊语
  •   
  • OpenCSV
  •   
  • 离子
  •   
  • JSON
  •   

使用CREATE EXTERNAL TABLE时,您指定 Amazon S3存储桶和路径。该路径(目录)中的所有文件都将包含在查询中。如果添加/更改/删除文件,则下次运行查询时,由于Redshift Spectrum始终会查看存储在S3中的文件,因此将包含新的/修改的数据。

Amazon Redshift Spectrum与Amazon Athena 类似。它们都允许您对存储在Amazon S3存储桶中的文件运行SQL查询。

本文链接:https://www.f2er.com/3031380.html

大家都在问