apache-spark

如何在Spark中更新dataFrame列的值

我的数据框包含国家/地区名称的缩写： <pre><code>Dense</code></pre> 我还有一个枚举，包含国家名称和

前端之家
2022-08-16 • 问答
启动了spark dir正常工作，但spark-shell没变，无法识别错误'spark-shell'

<a href="https://i.stack.imgur.com/pZzAd.png" rel="nofollow noreferrer">cmd screenshot</a>我已经按照指示完成了所有操作，

前端之家
2022-08-16 • 问答
使用Sparklyr返回逻辑计划

我们正在尝试获取Spark为给定查询生成的逻辑计划（不要与 physical 计划混淆）。根据

前端之家
2022-08-16 • 问答
Ucanaccess转换中的数据类型不兼容：从SQL类型CHARACTER到java.lang.Double

我的代码如下： <pre><code>val optionMap = Map( "driver" -> "net.ucanaccess.jdbc.UcanaccessDriver", &#3

前端之家
2022-08-16 • 问答
createOrReplaceTempView不是org.apache.spark.rdd.RDD的成员

我正在使用 hadoop 2.7.2，hbase 1.4.9，spark 2.2.0，scala 2.11.8和Java 1.8 。我在没有任何错误的情况

前端之家
2022-08-16 • 问答
pyspark驱动程序为什么不将jar文件下载到本地存储？

我正在使用<a href="https://support.microsoft.com/en-us/help/17454/lifecycle-faq-internet-explorer" rel="nofollow noreferrer">Lifecyc

前端之家
2022-08-16 • 问答
pyspark根据匹配数据将导入列从一个df合并到另一个

我对使用数据帧非常陌生。我有两个框架。一个被称为<code>new</code>，另一个被称为<code>existing<

前端之家
2022-08-16 • 问答
将StopWordsRemover和RegexTokenizer应用于spark 2.4.3中的多个列

我有以下数据框df4 <pre><code>|Itemno |fits_assembly_id |fits_assembly_name

前端之家
2022-08-16 • 问答
修改mapPartitions

我正在尝试通过从其余API中获取信息来丰富数据帧，但又不让它感到不知所措-也就是说，我所寻找的本

前端之家
2022-08-16 • 问答
如何将列表转换为具有多列的行

从csv文件创建一个DataFrame，处理每一行，想创建一个具有相同列数的新行。 <pre><code>val df = spark.read.f

前端之家
2022-08-16 • 问答
将自定义函数应用于数据框中的行组

我正在开发财务应用程序。目的是计算各种投资组合风险统计数据。第一个基本问题是：我有一个具有

前端之家
2022-08-16 • 问答
如何从顶点输入文件创建VertexRDD？

我有一个这样的顶点输入文件： <pre><code>(1L,(0.5,0.5)) (2L,(0.25,0.0625)) (3L,(0.125,0.125)) (4L,(0.0625,0.0625)) (5L,

前端之家
2022-08-16 • 问答
遍历Spark Dataframe，保存结果并在上一次迭代中使用结果

如何遍历spark数据框，应用业务逻辑并在下一次迭代中使用结果。由于要在此作业中处理的数据量较大，

前端之家
2022-08-16 • 问答
数据集中的拆分数量超过数据集拆分限制，Dremio + Hive + Spark

我们有一个由Hadoop + Hive + Spark + Dremio组成的堆栈，因为Spark为单个Hive分区写入多个HDFS文件（取决于工作

前端之家
2022-08-16 • 问答
更改为kafka_2.11

我已将pom文件中的Kafka版本从2.10更改为2.11，现在我遇到错误了 pom的变化来自 <pre><code><depen

前端之家
2022-08-16 • 问答
如何将JSON字符串数组分解为行？

我的UDF函数以字符串形式返回一个json对象数组，如何将其扩展为数据帧行？如果不可能，还有其

前端之家
2022-08-16 • 问答
如何使用内联Jupyter选项启动pyspark？

我正在尝试使用<code>pyspark</code>选项（内联）运行<code>Jupyter Lab</code>，如下所示。 <pre><code>PYSPARK_DRIVE

前端之家
2022-08-16 • 问答
原因：java.lang.IllegalArgumentException：类型（Scratch.Bar）的值X不能转换为struct <alias：string>

我很困惑为什么以下代码从标题中引发异常： <pre><code>class Scratch { public static void main(String[] args) {

前端之家
2022-08-16 • 问答
Pyspark无法找到数据源：kafka

我正在研究Kafka流，并尝试将其与Apache Spark集成。但是，在运行时，我遇到了问题。我收到以下错误。</p

前端之家
2022-08-16 • 问答
如何在Spark Streaming中跟踪数据滞后的EventHub和Blob

我正在研究Spark Streaming，基本上是从EventHub读取近实时数据并将其转储到Blob位置，我将需要实现水印处

前端之家
2022-08-16 • 问答
调用Spark中的Doc2Vec并输入向量以进行逻辑回归机器学习

我运行Gensim来训练主体的Doc2vec。我需要提取每个文档的向量作为输入数据，以便在Spark中进行逻辑回归。

前端之家
2022-08-16 • 问答
如何基于多个条件使用SparkSQL在Spark DF中选择行

我对pyspark相对较新，并且有一个带有日期列“ Issue_Date”的spark数据框。 “ Issue_Date”列包含1970年至2060

前端之家
2022-08-16 • 问答
如何在PySpark程序中打印变量或数据框以进行控制台？

我是Spark的新手，试图像使用Pandas进行数据分析一样使用它。在熊猫中，要查看变量，我将编写

前端之家
2022-08-16 • 问答
在dataFrame列值中添加单引号

<code>DataFrame</code>持有一列<code>QUALIFY</code>，其值如下所示。 <pre><code>QUALIFY ================= ColA|ColB|ColC

前端之家
2022-08-16 • 问答
如何使用Spark SQL Scala API（不是SQL）检查Hive表是否为外部表

我正在使用以下代码（Spark SQL Scala API）检查Hive表是否为外部表，但是<code>df.drop("arr_split").show() # P

前端之家
2022-08-16 • 问答
如何为ADF数据工厂添加动态内容

我想为我的ADF管道添加动态参数。我有2个参数，我想用'/'连接。 <code>1. My source folder-> pipeline().paramet

前端之家
2022-08-16 • 问答
经过几次运行后，Databricks群集上计划的Spark作业间歇性故障

当前设置-Azure数据工厂管道计划每15分钟运行一次，在始终处于交互式数据块群集上运行一些Databricks笔

前端之家
2022-08-16 • 问答
NoClassDefFoundError com / yammer指标核心量规

我首先录制了此命令： <pre><code>window</code></pre> 然后我录制以下命令： <pre><code>sepsiscategories.cr

前端之家
2022-08-16 • 问答
我有两行多列的DataFrame，如何转置为两列多行？

我有一个这样的spark DataFrame： <pre><code>+---+---+---+---+---+---+---+ | f1| f2| f3| f4| f5| f6| f7| +---+---+---+---+---+

前端之家
2022-08-16 • 问答
由于权限问题，spark作业在客户端模式下运行，但未在集群模式下运行

我正在使用如下的spark-sbumit脚本文件运行我的spark-job <pre><code>export SPARK_HOME=/local/apps/analytics/spark-2.4.

前端之家
2022-08-16 • 问答