将.csv加载到由Windows和Linux组成的Spark集群中

2024-05-03 • 问答

我正在Windows和Linux服务器的群集上运行Spark 2.4.4。一切开始，似乎连接正常。

我大约有10 TB的csv数据，基本上是一张巨型表。我想将其加载到群集中并进行一些分析。文件不位于HDFS上。它们是混合的文件管理器，这些文件管理器都已映射到从站。

数据分为几个文件。我还可以轻松地将其合并为一个大文件，Windows和Linux从属可以看到。我不想做的是，由于文件布局方式的问题，我的文件拆分导致Spark集群以次优的方式加载/分区数据。

将表加载到群集中的最佳方法是什么，以便Spark以最有效的方式将其分发/分区给从属服务器？

最终目标只是使用某些ML Pipeline工具来分析数据。

谢谢！