强制雅典娜/普雷斯托遵守S3中文件的顺序

2024-05-20 • 问答

我有一个顺序很重要的文件。本质上，文件包含多种记录类型，并且组的第一个记录定义了链接后续记录的ID，直到找到另一个“第一个”记录为止。可以有许多不同类型的后续记录。

因此，在读取时，按顺序读取文件很重要。您找到该ID，然后将其传播到所有其他记录。但这完全与Athena和presto的工作原理背道而驰-他们竭尽所能并行读取数据。

那么可以在athena中读取它，还是必须先在python中对其进行预处理？我猜测可能有一些选项可以强制执行单线程读取，甚至可以告诉雅典娜源文件的顺序很重要，但我找不到任何东西。

如果文件名中有特定的命名约定，则可以在查询中使用内置字段“ $ path”以特定的顺序读取文件。有关“ $ path”的更多信息，请参见此链接 https://aws.amazon.com/premiumsupport/knowledge-center/find-s3-source-file-athena-table-row/

本文链接：https://www.f2er.com/3095945.html