pyspark

PySpark错误''py4j.protocol.Py4JJavaError：调用o175.withColumn时发生错误。''

我正在尝试使用withColumn函数将spark数据框中的列从中间的某个位置移到第一列。下面是我的PySpark

前端之家
2022-08-16 • 问答
SparkRDD.foreach（）无法使用BlobClient将文件上传到Azure Blob存储-身份验证错误

我陷入了一个非常奇怪的问题。我有一个火花RDD（键值），想将RDD的每个条目存储到Azure Blob存储上的单

前端之家
2022-08-16 • 问答
PySpark无法在Koalas DataFrame中计算列式标准差

我在PySpark中有一个Koalas DataFrame。我想计算列标准偏差。我已经尝试过： <pre><code>df2['x_std'] = df

前端之家
2022-08-16 • 问答
如何在不传递函数的情况下使sc spark上下文对所有模块都是全局的

我有一个场景，我使用log4j进行调试。下面是我的第一行 <pre><code><div id="test"> <div id=&#3

前端之家
2022-08-16 • 问答
使用pyspark

我正在尝试使用pyspark将RDD保存到AWS S3，但出现“目录已存在”错误。当“ content1”文件夹不存在

前端之家
2022-08-16 • 问答
如何使用foreach更新pyspark数据框

我有一个pyspark数据框，我想处理每行并根据某种逻辑更新/删除/插入行。我试图使用“ foreach”和“ forea

前端之家
2022-08-16 • 问答
如何释放pyspark模型（JavaModel）占用的内存？

如上所述，我通过pyspark加载了经过训练的word2vec模型。 <pre><code>word2vec_model = Word2VecModel.load("saving

前端之家
2022-08-16 • 问答
在Spark DataFrame过滤器功能中，无论我是否使用udf，为什么在耗时上有如此大的差异？

在我的测试代码中，我想知道过滤后的数据帧的计数。所以我列举了两种方法，但是在时间上有很大的

前端之家
2022-08-16 • 问答
如何将ArrayType（StructType）的spark dataframe列拆分为pyspark中的多个列？

我正在使用具有以下模式的databricks spark xml读取xml。子元素X_PAT可以发生多次，以进行处理这是我使用过

前端之家
2022-08-16 • 问答
如何在Pyspark中过滤数组列值

我有一个<code>pyspark Dataframe</code>，其中包含许多列，其中列为Array类型和String列： <pre><code>numbers <

前端之家
2022-08-16 • 问答
Pyspark：在运行时动态生成when（）子句的条件

我已将一个csv文件读入<code>pyspark dataframe</code>。现在，如果我在<code>when()</code>子句中应用条件，则在<co

前端之家
2022-08-16 • 问答
如何使用流数据帧进行rdd转换

我想对流数据帧进行自定义转换，例如： <pre><code>lines = spark \ .readStream....blabla df1 = line.rdd.map(xxx)

前端之家
2022-08-16 • 问答
如何从pyspark中的Spark数据框的列中删除引号“”

我有一个数据框。 <pre><code>SELECT * FROM [table1] WHERE [ColumName] LIKE '[^A-Za-z0-9]%' OR [ColumName] LIKE &#3

前端之家
2022-08-16 • 问答
如何在PySpark中使用foreach或foreachBatch写入数据库？

我想使用Python（PySpark）从Kafka源到MariaDB进行Spark结构化流（Spark 2.4.x）。我想使用流式Spark数据框

前端之家
2022-08-15 • 问答
我们可以在单次运行中写入并稍后读取带有最新数据的同一表吗？

<pre><code>1.read table A from SRC 2.perform CDC & write A to TGT 3.read table B from SRC 4.read table A from TGT 5.B_new =join of A &am

前端之家
2022-08-15 • 问答
“提升”参数在Spark FP-Growth算法中意味着什么？

我目前正在尝试在<strong> Spark 2.4 </strong>中实现的篮子分析算法，称为<strong> FP-Growth </strong>。当显示关联

前端之家
2022-08-15 • 问答
AWS GlueContext未初始化

我不熟悉AWS和胶水服务，试图与pycharm一起使用，并且有一个python类从S3位置读取数据，效果很好。 python

前端之家
2022-08-15 • 问答
将Python Google Firestore客户端与PySpark结合使用

我正在尝试使用PySpark执行Python脚本。但是，对工作至关重要的一个库是<a href="https://github.com/googleapis/goog

前端之家
2022-08-15 • 问答
读取JSON动态列并转换为几列（Pyspark）

我有一个数据框，其中的一列包含类似JSON的字符串，我想将其转换为几列。（对不起，我不知道如何在

前端之家
2022-08-15 • 问答
如何在GCP中将jar依赖项添加到dataproc集群？

尤其是如何添加spark-bigquery-connector，以便可以从dataproc的Jupyter Web界面中查询数据？主要链接： -<a

前端之家
2022-08-15 • 问答
PySpark高效方式N最大要素

<img src="https://i.stack.imgur.com/E5msE.png" alt="My dataset"/> 因此，我必须从此数据集中获取n个（默认为3个）最

前端之家
2022-08-15 • 问答
在pyspark

我正在尝试使用由pyspark创建的RDD文件运行pyeeg函数。我想使用火花映射和减少方法获取pyegg函数的输出。

前端之家
2022-08-15 • 问答
Jupyter中不同的显示结果取决于内核（新用户问题）

我是Jupyter的新手，无法理解如何根据所使用的内核显示某些对象。这是我的例子。 <pre><code>#s

前端之家
2022-08-15 • 问答
pyspark中是否可以计算唯一值

我有一个spark数据帧（12m x 132），我试图按列计算唯一值的数量，并删除只有1个唯一值的列。到

前端之家
2022-08-15 • 问答
PySpark：从列中提取/收集第一个数组元素

我有一个看起来像的数据框 <pre><code> |-- alleleFrequencies: array (nullable = true) | |-- element: double (containsN

前端之家
2022-08-15 • 问答
Profile Pyspark结构化流应用程序

我想测量执行时间并从应用程序本身分析Pyspark结构化流。例如，我想使用以下命令执行Python脚本 <pre

前端之家
2022-08-15 • 问答
G.2X工作者类型序列化结果的总大小大于spark.driver.maxResultSize

我正在执行etl作业，试图转换大约40GB的数据并将其保存到S3存储桶中。我使用的是G.2X工作程序类型，因

前端之家
2022-08-15 • 问答
替换列表列pyspark中的null

我有一个如下所示的数据框，并尝试使用df.fillna（0）或df.fillna（“ nn”）替换空值，两者似乎都对数据

前端之家
2022-08-15 • 问答
Spart DF：将数组拆分为多行

我使用mongodata创建了spark数据框（在使用python笔记本的数据块中） <a href="https://i.stack.imgur.com/6FVKF.

前端之家
2022-08-15 • 问答
使用带有大量类别的附加列在条形图中绘制

我有一个包含3列的pyspark数据帧：Violation_Location，Violation_Code和Ticket_Frequency。但是，在Violation_Code和Violati

前端之家
2022-08-15 • 问答