假设我正在使用一个具有2个i3.metal实例的集群,每个实例具有512GiB内存和72个vCPU内核(source)。如果要使用所有内核,则需要对执行程序进行一些配置,并且每个执行程序需要有144个内核。似乎有很多选择。例如,我可以有72个执行者,每个执行者2个核心,或者我可以有36个执行者,每个执行者4个核心。无论哪种方式,我最终都拥有相同数量的内核,每个内核具有相同的内存量。
如何在这两种配置之间进行选择,或者如何选择更多可用的配置?两者之间在功能上有什么区别吗?
我已阅读Cloudera's blog post的关于火花作业的参数调整的信息,但没有回答这个问题。我也在SO中搜索了相关帖子,但是同样,没有找到该问题的答案。
this post中对最高答案的评论表明没有单个答案,应该针对每个作业进行调整。如果是这样的话,我将不胜感激!