将.csv加载到由Windows和Linux组成的Spark集群中

我正在Windows和Linux服务器的群集上运行Spark 2.4.4。一切开始,似乎连接正常。

我大约有10 TB的csv数据,基本上是一张巨型表。我想将其加载到群集中并进行一些分析。文件不位于HDFS上。它们是混合的文件管理器,这些文件管理器都已映射到从站。

数据分为几个文件。我还可以轻松地将其合并为一个大文件,Windows和Linux从属可以看到。我不想做的是,由于文件布局方式的问题,我的文件拆分导致Spark集群以次优的方式加载/分区数据。

将表加载到群集中的最佳方法是什么,以便Spark以最有效的方式将其分发/分区给从属服务器?

最终目标只是使用某些ML Pipeline工具来分析数据。

谢谢!

hhhhttty 回答:将.csv加载到由Windows和Linux组成的Spark集群中

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3130097.html

大家都在问