hadoop集群+禁止Spark应用程序在特定数据节点上运行的任何方法

我们有Hadoop集群(HDP 2.6.5个具有ambari的集群,具有25个datanodes机器)

我们正在使用火花流应用程序(spark 2.1Hortonworks 2.6.x上运行)

当前情况是,火花流应用程序在所有datanode机器上运行

但是现在我们希望Spark Streaming应用程序只能在前10 datanodes台机器上运行

因此其他最后15 datanodes台计算机将受到限制,而spark应用程序将仅在前10 datanodes台计算机上运行

这种情况可以通过笨拙功能或其他方法来完成吗?

例如,我们找到了-https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/configuring_node_labels.html

http://crazyadmins.com/configure-node-labels-on-yarn/

但不确定Node Labes是否可以帮助我们

iCMS 回答:hadoop集群+禁止Spark应用程序在特定数据节点上运行的任何方法

@Jessica是的,您绝对是对的。纱线节点标签和纱线队列是Ambari管理员控制团队级别访问整个纱线簇的一部分的方式。您可以从非默认队列开始非常基础,也可以从许多不同团队的许多队列开始深入了解。节点标签将其带到另一个层次,允许您将队列和团队专门映射到节点。

这是一个使用spark来使用纱线队列的语法的帖子:

How to choose the queue for Spark job using spark-submit?

我试图找到这些文档的2.6版本,但无法...。自合并以来,他们确实把文档混在一起了。

https://docs.cloudera.com/HDPDocuments/HDP2/HDP-2.3.2/bk_yarn_resource_mgt/content/ch_node_labels.html

https://docs.cloudera.com/HDPDocuments/HDP3/HDP-3.1.0/data-operating-system/content/configuring_node_labels.html

您可能必须采取的实际步骤可能是两者的结合。在Ambari HDP / HDF中工作时,对我来说是典型的经验。

本文链接:https://www.f2er.com/2022868.html

大家都在问