pyspark

Pyspark作业可能的资源限制问题

我正在用aws进行胶水作业。它基本上在aws胶工作中运行pyspark代码。这项工作会连接到几个ec2实例。对于

前端之家
2022-08-16 • 问答
spark：构建SparkSession本地模式，添加本地jar

我正在尝试在本地创建sparksession。我想把它放在罐子里。出于安全原因，我无法使用Maven。我尝试

前端之家
2022-08-16 • 问答
即使配置了EMR，也找不到Spark org.postgresql.Driver

我正在尝试使用以下代码将pyspark数据帧写入Postgres数据库： <pre><code>mode = "overwrite" url = "jdbc

前端之家
2022-08-16 • 问答
Spark：将HDFS URL与数据局部性警告并行化

我有一个HDFS zip文件URL列表，我想在RDD映射函数中打开每个文件，而不是使用binaryFiles函数。最初

前端之家
2022-08-16 • 问答
Spark：是否可以增加pyarrow缓冲区？

我试图像这样将大型（〜30GB）数据帧传递给pandas_udf： <pre><code>@f.pandas_udf(gen_udf_schema(), f.PandasUDFType.G

前端之家
2022-08-16 • 问答
在Pyspark中，如果将与partitionBy中使用的列相同的列进行分组，会发生什么情况？编辑：

我有一个按列<code>ID</code>进行分区并写入磁盘的数据集。这导致每个分区在文件系统中获得其自己的文

前端之家
2022-08-16 • 问答
pyspark rdd在一个rdd中合并多个json文件数据

我正在尝试将两个文件数据合并到一个rdd中。可以说我有两个文件<code>file1.txt</code>是大json格式的文件，

前端之家
2022-08-16 • 问答
KafkaUtils.createDirectStream失败，出现TypeError

我想尝试使用pyspark和kafka进行火花流传输，但是createDirectStream失败，并显示错误类型 <pre><code>import os

前端之家
2022-08-16 • 问答
使用Pyspark将列从字符串转换为时间戳

我有2列（Violation_Time，Time_First_Observed）的pyspark数据帧，它们被捕获为字符串。数据样本在下面，以HHmm

前端之家
2022-08-16 • 问答
如何在pySpark的.when（）中使用多个.contains（）？

我试图根据另一列中的现有单词在新列中创建类。为此，我需要包括多个.contains（）条件。但是我没有

前端之家
2022-08-16 • 问答
无法在pyspark中导入parse_url 编辑：

我有这个sql查询，用于pyspark中的hiveql： <pre class="lang-py prettyprint-override"><code>spark.sql('SELECT split(par

前端之家
2022-08-16 • 问答
Pyspark中的动态window.partitionBy列

我创建了两个数据框。 <code>df_stg_raw</code>数据框正在保存重复记录。 <code>df_qualify</code>数据帧保持<code>me

前端之家
2022-08-16 • 问答
在执行程序/ pyspark中读/写表

如何在执行程序的pandas_udf内部从增量表中读取/写入？出于某种原因，我想从数据集中检索各种数

前端之家
2022-08-16 • 问答
如何将具有范围值的列添加到DataFrame

我有具有当前结构的数据框 <pre><code>user_id | country | event | 1 | CA | 1 | 2 | USA | 1 |

前端之家
2022-08-16 • 问答
计算时间戳和字符串之间的pyspark月差异

我正在使用带有JSON文件的数据块中的pyspark清理数据。 <code>eval</code>括号中的表达式来自JSON文件。 <p

前端之家
2022-08-16 • 问答
如何在groupBy（）之后选择数据框的特定行？

我有一个pyspark DataFrame：<code>df</code>。例如： <pre><code> e | attempt | grade --------------------- 1 | 1 | 100

前端之家
2022-08-16 • 问答
在kubernetes集群中使用spark_sklearn

我正在从事机器学习项目。我最初使用scikit-learn（sklearn）库。在模型优化过程中，我使用了sklearn的经典

前端之家
2022-08-16 • 问答
从Spark / Dataproc将.txt文件写入GCS：如何仅写入一个大文件，而不是自动将其拆分成多个文件？

我使用Dataproc运行Pyspark脚本，该脚本将数据帧写入Google云端存储桶中的文本文件。当使用大数据运行脚

前端之家
2022-08-16 • 问答
如何使用pyspark读取嵌套的json

我的json文件如下所示 {“ numFound”：9710，“ start”：3000，“ interactions”：[{“ intID”：“ 13407682

前端之家
2022-08-16 • 问答
流终止时，事件中心到databricks错误？

Azure Databricks使用以下代码从事件中心读取数据时，我一直在尝试建立概念证明： <pre><code>connectionStr

前端之家
2022-08-16 • 问答
PySpark：使用窗口功能汇总数据框

我有一个数据框<code>my_df</code>，其中包含4列： <pre><code>+----------------+---------------+--------+---------+ |

前端之家
2022-08-16 • 问答
Pyspark EMR Jupyter笔记本加载JAR依赖Postgres

我正在尝试将数据帧写入Postgres数据库，并且正在关注问题<a href="https://stackoverflow.com/questions/51772350/how-to

前端之家
2022-08-16 • 问答
未能找到主题的负责人； org.apache.kafka.common.utils.Utils.formatAddress上的java.lang.NullPointerException NullPointerException

当我们尝试从启用SSL的Kafka主题流式传输数据时，我们将面临以下error。您能在这个问题上帮助我们吗？

前端之家
2022-08-16 • 问答
修改图案以查找数字

我有这种模式可以从字符串中提取数字。 <pre><code>ptns = { 'clean1': re.compile(r'[-&\s]+', re.U

前端之家
2022-08-16 • 问答
如何从上一行中减去值并更新PySpark中的数据框？

<a href="https://i.stack.imgur.com/UIbsq.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/UIbsq.png" alt="Dataframe"/>

前端之家
2022-08-16 • 问答
pyspark collect_set在groupby之外的列

我正在尝试使用collect_set获取groupby的<strong> NOT </strong>部分的categorie_name字符串列表。我的代码是 <pre

前端之家
2022-08-16 • 问答
将RDD列转换为浮动

我刚刚从<a href="http://files.grouplens.org/datasets/movielens/ml-latest-small.zip" rel="nofollow noreferrer">http://files.grouplens.

前端之家
2022-08-16 • 问答
在Databricks / Pyspark上读取字节的实木复合地板字符串

假设我有一个Spark DataFrame，其主体中包含字节作为字符串。我想获取一个字符串，该字符串是实木复合

前端之家
2022-08-16 • 问答
将pyspark数据帧拆分为块并转换为字典

我有一个pyspark数据框，如下所示： <pre><code>+----+--------------------+ | ID| Email| +----+------------

前端之家
2022-08-16 • 问答
从主节点或主从节点触发与数据源的连接

我有一个集群，其中有一个主机（主机名：masterA）和两个从机（主机名：slaveA和slaveB）。我的代码将从s

前端之家
2022-08-16 • 问答