我正在Windows和Linux服务器的群集上运行Spark 2.4.4。一切开始,似乎连接正常。
我大约有10 TB的csv数据,基本上是一张巨型表。我想将其加载到群集中并进行一些分析。文件不位于HDFS上。它们是混合的文件管理器,这些文件管理器都已映射到从站。
数据分为几个文件。我还可以轻松地将其合并为一个大文件,Windows和Linux从属可以看到。我不想做的是,由于文件布局方式的问题,我的文件拆分导致Spark集群以次优的方式加载/分区数据。
将表加载到群集中的最佳方法是什么,以便Spark以最有效的方式将其分发/分区给从属服务器?
最终目标只是使用某些ML Pipeline工具来分析数据。
谢谢!