-
启动了spark dir正常工作,但spark-shell没变,无法识别错误'spark-shell'
<a href="https://i.stack.imgur.com/pZzAd.png" rel="nofollow noreferrer">cmd screenshot</a>我已经按照指示完成了所有操作, -
使用`spark-submit`在单节点独立Spark集群中启动作业
我有一个配置有单个工作程序的单节点Spark集群(4个cpu内核和15GB内存)。我可以访问Web UI并查看工作节 -
使用Apache Spark连接到Presto时如何解决SQL Exception-Unsupported类型的JAVA_OBJECT?
我是Apache Spark的新手,正尝试从Apache Spark连接到Presto。下面是我的连接字符串,它给出了错误。 <pre> -
从docker容器启动spark-shell的问题
我想从Docker容器连接到本地Spark集群。 docker容器安装了所有spark依赖项和配置文件。我还编辑了<code>/etc/h -
如何使用Spark-shell一次性过滤掉表中所有列的所有空值?
我正在使用<strong> Spark shell 1.6 </strong>。我想执行一次检查以将包含空值的所有行与不包含空值的行分开 -
如何使用Spark读取Hive托管表数据?
我能够使用spark-shell读取hive外部表,但是,当我尝试从hive托管表中读取数据时,它仅显示列名。 -
使用yarn客户端,ERROR客户端运行spark-shell时出现问题。TransportClient:无法发送RPC
我正在尝试在Windows中使用火花设置hadoop 3.1.2。我已经启动了hdfs集群,并且能够在hdfs中创建,复制文件 -
在Spark-shell(或Zeppelin)中使用Java时间“无法序列化任务”,但在spark-submit中却没有
奇怪的是,我发现使用spark-submit和使用spark-shell(或齐柏林飞艇)运行时有几次不同,尽管我不相信。</p -
Spark Shell JDBC读取的numPartitions值是否取决于执行程序的数量?
我在具有2个核心和16GB RAM的单个节点上以独立模式设置了Spark,以制作一些粗糙的POC。<br/> 我想使用<code> -
读取许多文件时,是否可以并行化spark.read.load(string *)?
我注意到在spark-shell(spark 2.4.4)中,当我执行简单的<code>spark.read.format(xyz).load("a","b","c -
合并包含重复值的数据框的n行
我有一个如下数据框 <pre><code>Id linkedIn 1 [l1,l2] 2 [l5,l6,l3] 3 [l4,l5] 4 [l8,l10] 5 [l7,l9,l1] < -
java.lang.NoClassDefFoundError:org / apache / spark / sq / sources / v2 / StreamingWriteSupportProvider尝试从Scala中的kafka主题中拉出
我正在使用<code>spark-shell</code>实例来测试从客户端的kafka源中提取数据。要启动实例,我使用命令<code>spa -
在Spark Shell中运行带有换行符的Scala脚本
我正在尝试使用以下命令通过Spark Shell运行Scala脚本: <code>spark-shell -i myScriptFile.scala</code> 当我有 -
用户类抛出异常:java.util.MissingFormatWidthException:%-%
我正在使用Spark 2.4并在查询下面运行 <pre><code>select ID from WEB_TBL where ID NOT LIKE '%-%' </code></pre> <p -
在Scala-Shell中执行Linux命令
我正在一个项目中,我需要在我的Scala应用程序中执行一些linux命令(sqoop命令)。请参阅我尝试在VM上使 -
Spark-shell:执行流程时,Web UI不变
我在本地模式下使用Spark。我运行spark-shell并将文件用作数据集。一切工作都很好(例如,我要求spark-shel -
eshell中缺少spark-shell选项卡补全支持
代码完成在eshell中可以正常工作(例如,目录完成)。但是,在eshell中运行spark-shell时,Tab键仅插入制表 -
如何在spark-shell中增加db2异常的详细程度?
在由db2驱动的spark-shell中运行scala脚本后出现错误。我在网上找不到有关该错误的太多信息,想知道是否 -
向Spark Shell(R)添加参数
很抱歉,如果这是一个菜鸟问题,但我想问一下如何在命令行中设置它sparkr以允许用户输入值。我知道 -
我的pyspark没有在终端上启动,但是使用了jupyter笔记本
不久前, 当我在终端中输入<code>pyspark</code>时。 终端最终将变成...嗯...,像这样: <code>some i -
如何在scala中将列表转换为元组列表?
输入: <code>\App\Message</code> 所需的输出: <code>Val l= List("k1","v1","k2","v2&# -
spark-shell错误:值生成器不是com.amazonaws.services.s3.model.PutObjectRequest对象的成员
我刚开始使用EMR Hadoop / spark等,我试图使用spark-shell运行scala代码以将文件上传到EMRFS S3位置,但是我收 -
初始化时出现pyspark2错误:在发送其端口号之前,Java网关进程已退出
当我尝试初始化pyspark shell时,python似乎出现了一些问题,此错误是pyspark特有的,并且在初始化spark或spar -
我需要能够在Scala中导入哪个“ JAR”文件?
当我尝试这样做时: <pre><code>scala> import org.apache.parquet </code></pre> 错误提示: <pre><code><consol -
Jupyter Notebook中的PySpark问题
初始化时出现此错误。我已经设置了master和worker,然后启动了它。尽管在设置了master和spark之后,我没有 -
Spark-shell退格键在屏幕上打印'$ <3>'
我对scala和Spark还是很陌生,当我尝试删除一行代码时,看到的是$ <3>而不是删除所需的行/字符。 < -
错误:找不到:scala命令wordcount中的值
我正在尝试根据在线视频教程在spark中运行一些scala代码:这是一个字数统计程序 <pre><code>val lines = sc. -
如何在bash脚本中获取spark-shell << EOF <spark query> EOF的退出状态?
我有一部分shell脚本,如下所示。 spark_data = <code>spark-shell << EOF spark.sql(query) EOF</code> 我 -
如何确定在单个节点上运行的Spark的最佳设置?
我有55 GB的数据需要处理。我在具有32核和180GB RAM(无群集)的单台计算机上运行Spark-shell。由于它是单 -
为什么Spark包解析器(`--packages`)不会将依赖项复制到$ SPARK_HOME / jars? 与Jupyter一起使用
有人可以向我解释为什么我在<code>com.amazonaws_aws-java-sdk-bundle</code>上使用自动程序包解析器,为什么我必