pyspark

如何在不爆炸的情况下聚合pyspark中的结构列数组

我想汇总每个 customerId <code>where date<='30/03/2021'(mm/dd/yyyy)</code> 的 Order.amount 总和，利用每个 userId

前端之家
2022-04-15 • 问答
UDF 函数需要很多时间

我有一个这样的 DataFrame： <pre><code>SCORE = spark.createDataFrame( [ ('a', "Joe", 1), (&#39

前端之家
2022-04-15 • 问答
当我在 pyspark 中缓存时，数据连接是否需要重新分区

我有一个如下所示的表连接操作 <pre><code> rData = [rd1, rd2, rd3, ...] # a list of spark dataframe # option 1: lData.ca

前端之家
2022-04-15 • 问答
pyspark“isin”花费太长时间

我有一个需要从 pyspark.sql.DataFrame 中过滤的 ID 列表。 ID 有 3000000 个值。我使用的方法是 <pre><code>df_tmp

前端之家
2022-04-15 • 问答
根据pyspark中的列表删除包含值的行？

这是我的数据的样子： <pre><code>code_lst = [aa, del, sw] | code | name | destination |------ |------------- |--

前端之家
2022-04-15 • 问答
当镶木地板制作 hive 表时，Spark sql 发生错误蜂巢表实木复合地板查询

<h3>蜂巢表</h3> <pre class="lang-sql prettyprint-override"><code>CREATE EXTERNAL TABLE db.test_table1 ( id STRING, result INT ) PARTI

前端之家
2022-04-15 • 问答
pyspark 将列 hours.min 转换为分钟

我使用的是 pyspark 3.x 版本。下面是我的查询。我有一个 pyspark 列，其值如下 <pre><code> col 7.6 5

前端之家
2022-04-15 • 问答
每组重叠区间切片之间的总和值

我有一个 pyspark 数据框，如下所示： <pre class="lang-py prettyprint-override"><code>import pandas as pd from pyspark.sql

前端之家
2022-04-15 • 问答
Pyspark 和 Python - 列不可迭代

我将 Python-3 与 Azure 数据块一起使用。我有一个数据框。 'BodyJson' 列是一个 json 字符串，其中包含

前端之家
2022-04-15 • 问答
spark shuffle write 在小型、缓存和操作的 df

你好 Spark 社区，我正在使用 pyspark，Spark 3.0。我面临以下挑战（伪代码）： <hr/> <pre><code>

前端之家
2022-04-15 • 问答
如何在 pyspark 中转置数据帧？

如何从具有以下结构的数据框出发： <div class="s-table-container"> <table class="s-table"> <头> <tr> <th style="text-a

前端之家
2022-04-15 • 问答
根据 PySpark 中的两个不同行，在 Data Frame 中选择其中 ID 必须具有两个条件的行

我有一个结构如下的数据框： <pre><code>scanf</code></pre> 我想在 PySpark 中实现一个查询，该查询返回所

前端之家
2022-04-15 • 问答
如果架构不正确，是否可以防止附加文件？

以下示例显示即使要附加的数据多一列（不同的架构），spark 也允许附加文件。有没有办法防止这种情

前端之家
2022-04-15 • 问答
Pyspark 问题 - 表创建

在 HUE 中运行 sql 查询有效 - “创建存储为 parquet 的表，如 t as ......”，但通过 pyspark 数据框的相同查询

前端之家
2022-04-15 • 问答
如何在 pycharm 中设置 spark 环境？

我是 pyspark 的新手，从过去 2 天开始尝试使用 pycharm(windows) 设置 pyspark 环境但无法完美安装它引发了不

前端之家
2022-04-15 • 问答
pyspark - 分区数据的计算（使用“追加”模式创建）很慢

我在分区后查询出现性能问题。我每天有一个大约 3000 万行和 20 列的镶木地板文件。例如，文件 <

前端之家
2022-04-15 • 问答
在连接数据帧结果中显示用作关键连接的两列

我有以下简单的连接： <pre><code>df_join = (df1.join(df2, on=['key'], how='left').select(df1['key'],

前端之家
2022-04-15 • 问答
PySpark 滞后函数

设置如下。 <pre><code>from pyspark.sql import Row, functions as F from pyspark.sql.window import Window import pandas as pd dat

前端之家
2022-04-15 • 问答
pyspark UDF 函数返回类型位置 ROW

在我的 spark 数据框中，我有一个这是架构 <pre><code>root |-- locations: array (nullable = true) | |-- element: s

前端之家
2022-04-15 • 问答
Pyspark 循环遍历数据框并递减列值

我需要在 pyspark 数据框中逐行循环的帮助：例如： <pre><code>df1 +---------+ |id|value| +---------+ |a|100|

前端之家
2022-04-15 • 问答
pyspark 作业太慢 - 尝试了所有优化

<pre><code>import os import sys import time from pyspark.sql import SparkSession spark_packages = ",".join(['org.postgresql:p

前端之家
2022-04-15 • 问答
Pyspark 将 Json 转换为 DF

我有这个文件 .json 并且我需要，将它转换成 DF，文件是这样的： <pre><code>{ "id": "517379",

前端之家
2022-04-15 • 问答
调用logistic.fit(dataset)时“分类标签应该在[0到9]中”是什么意思

在终端中使用 spark-submit 运行 pyspark 程序时出现此错误回溯（最近一次调用最后一次）：文件“/Us

前端之家
2022-04-15 • 问答
pyspark 的红移库

我在运行 pyspark 程序时遇到以下错误。 <pre><code>: java.lang.ClassNotFoundException: com.amazon.redshift.jdbc42.Driver

前端之家
2022-04-15 • 问答
PySpark 作业在调用 o803.showString 时中止

我正在使用 aws 胶运行 pyspark 脚本，我的程序在调用 .show() 函数时出错。该程序在过去 3 个月内一直顺利

前端之家
2022-04-15 • 问答
如何使用pyspark用私钥解密文件

我的加密文件（使用公钥）和私钥存储在 S3 存储桶中。任何机构都可以帮助我使用 pyspark 代码解密文件

前端之家
2022-04-15 • 问答
pyspark 中 udf 的问题，用于将日期时间从 jalali 转换为 garegorian

我想在 pyspark 中将日期时间列从 jalai 转换为 garegorian。我定义了一个 UDF 来做到这一点。 <pre><code>impor

前端之家
2022-04-15 • 问答
py4j.protocol.Py4JJavaError: 调用 o49.csv 时出错

我是 pyspark 的新手。我在本地机器上运行 pyspark。我正在尝试从 pyspark 数据框写入 CSV 文件。于是我写了

前端之家
2022-04-15 • 问答
如果找到匹配项，则在 master 中插入增量记录并更新现有列值

我有一个<strong>主</strong>表 <pre><code>tcgetattr</code></pre> 还有一个<strong>daily</strong>表，一个daily表可以

前端之家
2022-04-15 • 问答
从 Pyspark 转换为 Pandas 时出错

我正在尝试将 Pyspark 数据帧转换为 Pandas，所以我只写了 df1=df.toPandas()，我收到错误“ValueError: ordinal must

前端之家
2022-04-15 • 问答