-
手动指定Spark执行程序的数量
我有1000个实木复合地板文件,并且我希望在中间阶段每个文件都由一名执行者处理。有没有一种方法可 -
在spark-submit命令中传递回传配置文件路径的干净方法
我正在为我的spark应用程序使用logback。我遇到的问题是,当我通过智能j本地运行时,我的spark应用程序 -
使用`spark-submit`在单节点独立Spark集群中启动作业
我有一个配置有单个工作程序的单节点Spark集群(4个cpu内核和15GB内存)。我可以访问Web UI并查看工作节 -
在HTTP代理后面时,Spark提交无法解决--package依赖关系
下面是我的spark-submit命令 <pre><code>/usr/bin/spark-submit \ --class "<class_name>" \ --master yarn \ - -
Spark提交不选择项目结构的模块和子模块
pycharm上pyspark项目的文件夹结构: <pre><code>TEST TEST (marked as sources root) com earl -
来自python worker的错误:/ bin / python:无法解压缩数据; zlib不可用
当我使用pyspark-submit运行python代码的spark作业时,遇到错误: <pre><code>Error from python worker: /bin/python: -
如何在Kubeedge上部署Spark?
我尝试使用k8s部署模式在Kubeedge 1.1.0上部署spark-2.4.3,但是失败了(docker版本19.03.4,k8s版本1.16.1)。 -
Python:将pandas Dataframe作为参数传递给子流程
如何使用子进程通过spark-submit将数据帧作为参数发送到python脚本。我尝试了以下代码,但由于无法将字 -
如何在Qubole中传递--properties-file进行火花提交?
我通过在AWS中创建集群来在Qubole中使用Spark。在<strong> <em> Qubole工作台</em> </strong>中,当我执行以下命令 -
Spark参数在SparkSubmitOperator-AirFlow
我已经在Spark Submit Operator中的conf中传递了以下spark参数,但是看起来这些在运行作业时不起作用。 <p -
如何远程运行Spark-Submit?
我在集群中运行了Spark(远程) 如何使用spark-submit将应用程序提交到具有以下场景的远程集群:</p -
平面映射后合并和重新分区不会更改分区数量的变化
我有一个要执行一些转换的数据框。我正在重新划分数据帧,以实现最大并行度。经过一系列转换后, -
MLlib软件包中的predictAll函数在spark-submit中始终存在py4j.protocol.Py4JJavaError错误,但在spyder中可以正常工作
我是新手。当我使用MLlib程序包中的predictAll函数通过spark-submit进行预测时,它始终显示错误,但在spyder -
Apache Airflow-Spark提交失败-与主“ yarn-client”一起运行时,必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR
我不熟悉Spark和Airflow,并试图创建一个在pyspark中运行spark提交作业的DAG。 在Ubuntu系统中,我创建 -
火花提交ClassNotFoundException或NoClassDef
我正在使用scala + spark开发一个应用程序。 我可以毫无问题地运行该项目,并且可以生成.jar(通过Intellij -
如何在Virtualenv中为pyspark运行spark-submit?
在virtualenv中,是否可以运行<code>spark-submit</code>(来自HDP 3.1.0的Spark v2.3.2)?有一种情况是在virtualenv中 -
sbt程序集创建的JAR缺少类
这是我的<code>build.sbt</code>文件: <pre><code>name := "CMDW-Security" version := "19.11.25" scalaVersion -
使用spark-submit将HashMap参数传递给Scala
我正在定义一个以hashmap作为参数的主对象; <pre><code>def main(args: Map [ String, Any ] ) : Unit = { val v_C -
使用流程生成器运行spark提交的参数是什么
我正在使用流程生成器,并希望使用spark-submit运行火花罐。 以下是代码段: <pre><code>ProcessBuilder objPr -
如何从Apache Airflow提交火花提交
任何人都可以帮助我如何在Apache Airflow中安排火花作业 我正在寻找脚本,请帮助我 -
从气流(1 **。1 * .0.35)中的其他群集(1 **。1 * .0.21)运行Spark Submit程序。如何远程连接气流中的其他群集
我一直在尝试在Airflow中发送SparkSubmit程序,但是spark文件在另一个群集(1 **。1 * .0.21)中,而airflow在(1 -
提交火花和相关配置的问题
我按如下所示设置spark-env.sh: <pre><code>SPARK_MASTER_HOST='192.168.1.125' SPARK_MASTER_PORT=8888 SPARK_MASTER_WEB -
在python中以编程方式提交pyspark作业而无需使用Submit pyspark
我想将我的本地系统的Spark作业提交到安装了cloudera的远程服务器(YARN上的Spark)。 尝试了所有可能性。 -
使用Spark-Submit运行Scala Jar
我已经将spark-scala脚本编译为JAR,并且希望通过spark-submit运行它。但是我遇到了这个错误: <pre><code>2 -
Spark Submit无法从Cloudera VM中的jar文件中找到主类
我正在尝试在cloudera Quickstart VM上进行火花提交。 包含主类。当我在VM上提交它时,它给了我找不到类的 -
Spark提交带有Anaconda安装的python库的AWS EMR
我从一个单独的ec2实例中使用boto3启动一个EMR集群,并使用如下所示的引导脚本: <pre><code>#!/bin/bash # -
在Spark应用程序中使用java.util.Timer
我有一个简单的Java应用程序,该应用程序使用java.util.Timer以固定的间隔启动SparkSession,当我设置<code>nc-c -
Spark 2.4版本是否仍然支持通过Java程序提交应用程序?
<strong> spark 2.4版本是否仍然支持通过Java程序提交应用程序?</strong> 如果静态URL支持通过版本2.4的Java程 -
将在k8s中运行的Spark驱动程序日志发送到Splunk
我正在尝试通过执行此处提到的步骤<a href="https://spark.apache.org/docs/latest/running-on-kubernetes.html" rel="nofollow n -
Spark-Submit:无法与virtualenv一起运行
我有一个python应用程序,我想使用spark提交通过虚拟环境运行。这是我的命令 <pre><code>PYSPARK_PYTHON=./ve