spark-submit

手动指定Spark执行程序的数量

我有1000个实木复合地板文件，并且我希望在中间阶段每个文件都由一名执行者处理。有没有一种方法可

前端之家
2022-08-16 • 问答
在spark-submit命令中传递回传配置文件路径的干净方法

我正在为我的spark应用程序使用logback。我遇到的问题是，当我通过智能j本地运行时，我的spark应用程序

前端之家
2022-08-16 • 问答
使用`spark-submit`在单节点独立Spark集群中启动作业

我有一个配置有单个工作程序的单节点Spark集群（4个cpu内核和15GB内存）。我可以访问Web UI并查看工作节

前端之家
2022-08-15 • 问答
在HTTP代理后面时，Spark提交无法解决--package依赖关系

下面是我的spark-submit命令 <pre><code>/usr/bin/spark-submit \ --class "<class_name>" \ --master yarn \ -

前端之家
2022-08-15 • 问答
Spark提交不选择项目结构的模块和子模块

pycharm上pyspark项目的文件夹结构： <pre><code>TEST TEST (marked as sources root) com earl

前端之家
2022-08-14 • 问答
来自python worker的错误：/ bin / python：无法解压缩数据； zlib不可用

当我使用pyspark-submit运行python代码的spark作业时，遇到错误： <pre><code>Error from python worker: /bin/python:

前端之家
2022-08-14 • 问答
如何在Kubeedge上部署Spark？

我尝试使用k8s部署模式在Kubeedge 1.1.0上部署spark-2.4.3，但是失败了（docker版本19.03.4，k8s版本1.16.1）。

前端之家
2022-08-14 • 问答
Python：将pandas Dataframe作为参数传递给子流程

如何使用子进程通过spark-submit将数据帧作为参数发送到python脚本。我尝试了以下代码，但由于无法将字

前端之家
2022-08-13 • 问答
如何在Qubole中传递--properties-file进行火花提交？

我通过在AWS中创建集群来在Qubole中使用Spark。在 Qubole工作台 中，当我执行以下命令

前端之家
2022-08-12 • 问答
Spark参数在SparkSubmitOperator-AirFlow

我已经在Spark Submit Operator中的conf中传递了以下spark参数，但是看起来这些在运行作业时不起作用。 <p

前端之家
2022-08-12 • 问答
如何远程运行Spark-Submit？

我在集群中运行了Spark（远程）如何使用spark-submit将应用程序提交到具有以下场景的远程集群：</p

前端之家
2022-08-12 • 问答
平面映射后合并和重新分区不会更改分区数量的变化

我有一个要执行一些转换的数据框。我正在重新划分数据帧，以实现最大并行度。经过一系列转换后，

前端之家
2022-08-11 • 问答
MLlib软件包中的predictAll函数在spark-submit中始终存在py4j.protocol.Py4JJavaError错误，但在spyder中可以正常工作

我是新手。当我使用MLlib程序包中的predictAll函数通过spark-submit进行预测时，它始终显示错误，但在spyder

前端之家
2022-08-11 • 问答
Apache Airflow-Spark提交失败-与主“ yarn-client”一起运行时，必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR

我不熟悉Spark和Airflow，并试图创建一个在pyspark中运行spark提交作业的DAG。在Ubuntu系统中，我创建

前端之家
2022-08-11 • 问答
火花提交ClassNotFoundException或NoClassDef

我正在使用scala + spark开发一个应用程序。我可以毫无问题地运行该项目，并且可以生成.jar（通过Intellij

前端之家
2022-08-09 • 问答
如何在Virtualenv中为pyspark运行spark-submit？

在virtualenv中，是否可以运行<code>spark-submit</code>（来自HDP 3.1.0的Spark v2.3.2）？有一种情况是在virtualenv中

前端之家
2022-08-09 • 问答
sbt程序集创建的JAR缺少类

这是我的<code>build.sbt</code>文件： <pre><code>name := "CMDW-Security" version := "19.11.25" scalaVersion

前端之家
2022-08-08 • 问答
使用spark-submit将HashMap参数传递给Scala

我正在定义一个以hashmap作为参数的主对象； <pre><code>def main(args: Map [ String, Any ] ) : Unit = { val v_C

前端之家
2022-08-07 • 问答
使用流程生成器运行spark提交的参数是什么

我正在使用流程生成器，并希望使用spark-submit运行火花罐。以下是代码段： <pre><code>ProcessBuilder objPr

前端之家
2022-08-07 • 问答
如何从Apache Airflow提交火花提交

任何人都可以帮助我如何在Apache Airflow中安排火花作业我正在寻找脚本，请帮助我

前端之家
2022-08-04 • 问答
从气流（1 **。1 * .0.35）中的其他群集（1 **。1 * .0.21）运行Spark Submit程序。如何远程连接气流中的其他群集

我一直在尝试在Airflow中发送SparkSubmit程序，但是spark文件在另一个群集（1 **。1 * .0.21）中，而airflow在（1

前端之家
2022-08-03 • 问答
提交火花和相关配置的问题

我按如下所示设置spark-env.sh： <pre><code>SPARK_MASTER_HOST='192.168.1.125' SPARK_MASTER_PORT=8888 SPARK_MASTER_WEB

前端之家
2022-08-02 • 问答
在python中以编程方式提交pyspark作业而无需使用Submit pyspark

我想将我的本地系统的Spark作业提交到安装了cloudera的远程服务器（YARN上的Spark）。尝试了所有可能性。

前端之家
2022-08-01 • 问答
使用Spark-Submit运行Scala Jar

我已经将spark-scala脚本编译为JAR，并且希望通过spark-submit运行它。但是我遇到了这个错误： <pre><code>2

前端之家
2022-08-01 • 问答
Spark Submit无法从Cloudera VM中的jar文件中找到主类

我正在尝试在cloudera Quickstart VM上进行火花提交。包含主类。当我在VM上提交它时，它给了我找不到类的

前端之家
2022-08-01 • 问答
Spark提交带有Anaconda安装的python库的AWS EMR

我从一个单独的ec2实例中使用boto3启动一个EMR集群，并使用如下所示的引导脚本： <pre><code>#!/bin/bash #

前端之家
2022-07-31 • 问答
在Spark应用程序中使用java.util.Timer

我有一个简单的Java应用程序，该应用程序使用java.util.Timer以固定的间隔启动SparkSession，当我设置<code>nc-c

前端之家
2022-07-29 • 问答
Spark 2.4版本是否仍然支持通过Java程序提交应用程序？

 spark 2.4版本是否仍然支持通过Java程序提交应用程序？ 如果静态URL支持通过版本2.4的Java程

前端之家
2022-07-28 • 问答
将在k8s中运行的Spark驱动程序日志发送到Splunk

我正在尝试通过执行此处提到的步骤<a href="https://spark.apache.org/docs/latest/running-on-kubernetes.html" rel="nofollow n

前端之家
2022-07-24 • 问答
Spark-Submit：无法与virtualenv一起运行

我有一个python应用程序，我想使用spark提交通过虚拟环境运行。这是我的命令 <pre><code>PYSPARK_PYTHON=./ve

前端之家
2022-07-23 • 问答

首页

下一页
末页