我有一个顺序很重要的文件。本质上,文件包含多种记录类型,并且组的第一个记录定义了链接后续记录的ID,直到找到另一个“第一个”记录为止。可以有许多不同类型的后续记录。
因此,在读取时,按顺序读取文件很重要。您找到该ID,然后将其传播到所有其他记录。但这完全与Athena和presto的工作原理背道而驰-他们竭尽所能并行读取数据。
那么可以在athena中读取它,还是必须先在python中对其进行预处理?我猜测可能有一些选项可以强制执行单线程读取,甚至可以告诉雅典娜源文件的顺序很重要,但我找不到任何东西。