强制雅典娜/普雷斯托遵守S3中文件的顺序

我有一个顺序很重要的文件。本质上,文件包含多种记录类型,并且组的第一个记录定义了链接后续记录的ID,直到找到另一个“第一个”记录为止。可以有许多不同类型的后续记录。

因此,在读取时,按顺序读取文件很重要。您找到该ID,然后将其传播到所有其他记录。但这完全与Athena和presto的工作原理背道而驰-他们竭尽所能并行读取数据。

那么可以在athena中读取它,还是必须先在python中对其进行预处理?我猜测可能有一些选项可以强制执行单线程读取,甚至可以告诉雅典娜源文件的顺序很重要,但我找不到任何东西。

domeimei 回答:强制雅典娜/普雷斯托遵守S3中文件的顺序

如果文件名中有特定的命名约定,则可以在查询中使用内置字段“ $ path”以特定的顺序读取文件。 有关“ $ path”的更多信息,请参见此链接 https://aws.amazon.com/premiumsupport/knowledge-center/find-s3-source-file-athena-table-row/

本文链接:https://www.f2er.com/3095945.html

大家都在问