pyspark

如何在结构化流式处理的pyspark中使用use foreach运算符（“ DataStreamWriter”对象失败，没有属性“ foreach”）？

我在pyspark 2.3.4中使用结构化流。我正尝试使用<code>foreach</code>运算符，如下所示： <pre><code>que

前端之家
2022-08-15 • 问答
PysparkpipelineModel.transform错误'字段“ cut_catVec”不存在。\ n可用字段

我正在尝试在Pyspark中运行MLlip以预测价格，并且我正在使用具有以下架构的数据框： <pre><code>[('cu

前端之家
2022-08-15 • 问答
pyspark：仅基于rdd的操作

我正在尝试仅使用基于rdd的操作。我有一个与此相似的文件； <pre><code>0, Alpha,-3.9, 4, 2001-02-01, 5, 20 0,

前端之家
2022-08-15 • 问答
Spark执行程序，任务和分区

随着我不断阅读有关Spark架构和调度的在线资源，我开始变得更加困惑。一种资源说：<a href="https://blog.cl

前端之家
2022-08-15 • 问答
Pyspark RDD的平均间隔

我正在尝试使用PySpark查找相邻元组列表之间的平均差。例如，如果我有这样的RDD <pre><code>vals

前端之家
2022-08-15 • 问答
RDD操作对pyspark中的值进行排序

我的文件格式如下， <pre><code>0, Alpha,-3.9, 4, 2001-02-01, 5, 20 0, Beta,-3.8, 3, 2002-02-01, 6, 21 1, Gamma,-3.7, 8, 2003

前端之家
2022-08-15 • 问答
pyspark中等效的行ID是什么？

在传统的DWH流程中，我们根据传统RDBMS中的rowid查找重复项并跟踪重复记录。例如 <pre><code>sele

前端之家
2022-08-15 • 问答
将胶水pypspark错误写入文本文件

我正在尝试在代码中添加一些错误处理。我在AWS胶水作业中运行pyspark代码。我想做的是在出现错误时创

前端之家
2022-08-15 • 问答
如何将csv转换为RDD并在pyspark中使用RDD进行检测？

我目前正在研究心脏病检测，并且希望使用spark来处理大数据，因为这是我工作解决方案的一部分。但是

前端之家
2022-08-15 • 问答
如何在（Py）Spark结构化流中捕获不正确的（损坏的）JSON记录？

我有一个<strong> Azure Eventhub </strong>，它正在流式传输数据（JSON格式）。我将其读取为Spark数据帧，并使

前端之家
2022-08-15 • 问答
计算每个不同值在PySparkSQL Join的列中出现多少次

我已使用PySpark SQL将两个表连接在一起，一个表包含经度和纬度的犯罪位置数据，另一个表包含其对应的

前端之家
2022-08-15 • 问答
使用Databricks上的Pyspark将DML命令下推到SQL

我正在使用Azure的Databricks，并希望使用PySpark将查询下推到Azure SQL。我已经尝试了很多方法，并找到了使

前端之家
2022-08-15 • 问答
错误PythonUDFRunner：Python worker意外退出（崩溃）

我正在运行一个调用udfs的PySpark作业。我知道udfs的内存不好，并且由于序列化/反序列化而变慢，但是由

前端之家
2022-08-15 • 问答
SparkSession.conf和SparkConf有什么区别？

我了解您是从一个SparkConf对象创建一个SparkSession的，但这是否意味着SparkSession.conf与SparkConf（）相同？

前端之家
2022-08-15 • 问答
pyspark：时间步的rdd操作

我的文件格式如下， <pre><code>0, Alpha,-3.9, 4, 2001-02-01 08:00:00, 5, 20 0, Beta, -3.8, 3, 2001-02-01 08:15:00, 6, 21 1,

前端之家
2022-08-15 • 问答
如何使用pyspark将html文本转换为纯文本？替换字符串中的html标签

我有一个文本文件，其中有一列“ descn”，其中包含一些文本，但它们均为html格式。所以我想使用pyspark

前端之家
2022-08-15 • 问答
spark如何合并几个列上的两个数据框？

我有两个数据框 <ul> <li> a列：['q1'，'q2'，'q3'，'a1'，'a2'] </li> <li> b列：['q1'，'q2'，'q3'，'b'，'b2'] </li>

前端之家
2022-08-15 • 问答
pyspark dataframe.write（）中的batchsize选项不起作用

我正在尝试将数据从pyspark写入PostgreSQL数据库。我使用batchsize 1000，在pyspark dataframe中的总数据为10000。但

前端之家
2022-08-15 • 问答
为什么混洗溢出比混洗读取或输出大小大得多？

我有一个相当简单的PySpark作业，其中的最后一个阶段读取一些混洗的数据，在窗口上执行一些聚合，然

前端之家
2022-08-15 • 问答
大型pySpark DataFrame：即使在.limit之后，.collect（）也会崩溃

我正在使用pyspark 2.1.1。我在Spark集群上创建了一个带有<code>sqlContext.sql('select...')</code>的PySpa

前端之家
2022-08-15 • 问答
有效地计算PySpark GroupedData上的前k个元素（非scala）

我的数据框的格式为： <pre><code>+---+---+----+ | A| B|dist| +---+---+----+ | a1| b1| 1.0| | a1| b2| 2.0| | a2| b1|10.0|

前端之家
2022-08-15 • 问答
我们是否需要内存中的所有数据才能在Spark

我正在尝试对类似这样的大数据（大约50TB）进行分组操作 <pre><code>df_grouped = df.groupby(df['col1'],

前端之家
2022-08-15 • 问答
Pyspark-Fill.na位置变化。

很一般的问题的道歉：我有一个pyspark数据帧，并以以下方式对其应用<code>fill.na</code>和<code>when</co

前端之家
2022-08-15 • 问答
Spark rand（）可以返回值1.0吗？

检查Spark文档，我发现： <ul> <li>调用pyspark.sql.functions.rand <a href="https://spark.apache.org/docs/latest/api/python/

前端之家
2022-08-15 • 问答
如何在pyspark中读取csv文件？

我正在尝试使用pyspark读取csv文件，但显示一些错误。您能告诉我读取csv文件的正确过程是什么吗？

前端之家
2022-08-15 • 问答
带有三个条件的pyspark df.withColumn

例如，我有两列代表<code>'TeamName'</code>和<code>'MatchResult'</code>： <pre><code>ManCity L Liverpool

前端之家
2022-08-15 • 问答
如何在窗口范围内取决于列值的窗口内部计算平均值？

我有以下数据： <pre class="lang-py prettyprint-override"><code>columns = ['aircraft_id', 'Liftoff', &

前端之家
2022-08-15 • 问答
在HDP群集中使用HDFS3库与Namenode连接时出错

将pyspark代码连接到Hadoop目录时出现错误。 <pre><code>>>> from hdfs3 import HDFileSystem >>> hdfs =

前端之家
2022-08-15 • 问答
pyspark sql查询等效功能

我刚刚开始潜入Pyspark。有一个数据集，其中包含一些值，我将在下面演示这些值，以询问无法创

前端之家
2022-08-15 • 问答
在pyspark查询中使用临时表

我需要使用SQL将一些数据读入Spark。由于性能原因，该查询实际上需要一个临时表。当我尝试使用如下所

前端之家
2022-08-15 • 问答