-
如何在不爆炸的情况下聚合pyspark中的结构列数组
我想汇总每个 customerId <code>where date<='30/03/2021'(mm/dd/yyyy)</code> 的 Order.amount 总和,利用每个 userId -
UDF 函数需要很多时间
我有一个这样的 DataFrame: <pre><code>SCORE = spark.createDataFrame( [ ('a', "Joe", 1), (' -
当我在 pyspark 中缓存时,数据连接是否需要重新分区
我有一个如下所示的表连接操作 <pre><code> rData = [rd1, rd2, rd3, ...] # a list of spark dataframe # option 1: lData.ca -
pyspark“isin”花费太长时间
我有一个需要从 pyspark.sql.DataFrame 中过滤的 ID 列表。 ID 有 3000000 个值。我使用的方法是 <pre><code>df_tmp -
根据pyspark中的列表删除包含值的行?
这是我的数据的样子: <pre><code>code_lst = [aa, del, sw] | code | name | destination |------ |------------- |-- -
当镶木地板制作 hive 表时,Spark sql 发生错误 蜂巢表实木复合地板查询
<h3>蜂巢表</h3> <pre class="lang-sql prettyprint-override"><code>CREATE EXTERNAL TABLE db.test_table1 ( id STRING, result INT ) PARTI -
pyspark 将列 hours.min 转换为分钟
我使用的是 pyspark 3.x 版本。 下面是我的查询。我有一个 pyspark 列,其值如下 <pre><code> col 7.6 5 -
每组重叠区间切片之间的总和值
我有一个 pyspark 数据框,如下所示: <pre class="lang-py prettyprint-override"><code>import pandas as pd from pyspark.sql -
Pyspark 和 Python - 列不可迭代
我将 Python-3 与 Azure 数据块一起使用。 我有一个数据框。 'BodyJson' 列是一个 json 字符串,其中包含 -
spark shuffle write 在小型、缓存和操作的 df
你好 Spark 社区, 我正在使用 pyspark,Spark 3.0。 我面临以下挑战(伪代码): <hr/> <pre><code> -
如何在 pyspark 中转置数据帧?
如何从具有以下结构的数据框出发: <div class="s-table-container"> <table class="s-table"> <头> <tr> <th style="text-a -
根据 PySpark 中的两个不同行,在 Data Frame 中选择其中 ID 必须具有两个条件的行
我有一个结构如下的数据框: <pre><code>scanf</code></pre> 我想在 PySpark 中实现一个查询,该查询返回所 -
如果架构不正确,是否可以防止附加文件?
以下示例显示即使要附加的数据多一列(不同的架构),spark 也允许附加文件。有没有办法防止这种情 -
Pyspark 问题 - 表创建
在 HUE 中运行 sql 查询有效 - “创建存储为 parquet 的表,如 t as ......”,但通过 pyspark 数据框的相同查询 -
如何在 pycharm 中设置 spark 环境?
我是 pyspark 的新手,从过去 2 天开始尝试使用 pycharm(windows) 设置 pyspark 环境但无法完美安装它引发了不 -
pyspark - 分区数据的计算(使用“追加”模式创建)很慢
我在分区后查询出现性能问题。 我每天有一个大约 3000 万行和 20 列的镶木地板文件。例如,文件 < -
在连接数据帧结果中显示用作关键连接的两列
我有以下简单的连接: <pre><code>df_join = (df1.join(df2, on=['key'], how='left').select(df1['key'], -
PySpark 滞后函数
设置如下。 <pre><code>from pyspark.sql import Row, functions as F from pyspark.sql.window import Window import pandas as pd dat -
pyspark UDF 函数返回类型 位置 ROW
在我的 spark 数据框中,我有一个 这是架构 <pre><code>root |-- locations: array (nullable = true) | |-- element: s -
Pyspark 循环遍历数据框并递减列值
我需要在 pyspark 数据框中逐行循环的帮助: 例如: <pre><code>df1 +---------+ |id|value| +---------+ |a|100| -
pyspark 作业太慢 - 尝试了所有优化
<pre><code>import os import sys import time from pyspark.sql import SparkSession spark_packages = ",".join(['org.postgresql:p -
Pyspark 将 Json 转换为 DF
我有这个文件 .json 并且我需要,将它转换成 DF,文件是这样的: <pre><code>{ "id": "517379", -
调用logistic.fit(dataset)时“分类标签应该在[0到9]中”是什么意思
在终端中使用 spark-submit 运行 pyspark 程序时出现此错误 回溯(最近一次调用最后一次): 文件“/Us -
pyspark 的红移库
我在运行 pyspark 程序时遇到以下错误。 <pre><code>: java.lang.ClassNotFoundException: com.amazon.redshift.jdbc42.Driver -
PySpark 作业在调用 o803.showString 时中止
我正在使用 aws 胶运行 pyspark 脚本,我的程序在调用 .show() 函数时出错。该程序在过去 3 个月内一直顺利 -
如何使用pyspark用私钥解密文件
我的加密文件(使用公钥)和私钥存储在 S3 存储桶中。任何机构都可以帮助我使用 pyspark 代码解密文件 -
pyspark 中 udf 的问题,用于将日期时间从 jalali 转换为 garegorian
我想在 pyspark 中将日期时间列从 jalai 转换为 garegorian。我定义了一个 UDF 来做到这一点。 <pre><code>impor -
py4j.protocol.Py4JJavaError: 调用 o49.csv 时出错
我是 pyspark 的新手。我在本地机器上运行 pyspark。我正在尝试从 pyspark 数据框写入 CSV 文件。于是我写了 -
如果找到匹配项,则在 master 中插入增量记录并更新现有列值
我有一个<strong>主</strong>表 <pre><code>tcgetattr</code></pre> 还有一个<strong>daily</strong>表,一个daily表可以 -
从 Pyspark 转换为 Pandas 时出错
我正在尝试将 Pyspark 数据帧转换为 Pandas,所以我只写了 df1=df.toPandas(),我收到错误“ValueError: ordinal must