pyspark-sql

如何在Hive / Spark SQL中使用窗口函数删除重叠

我有一张包含客户和产品信息的表。 <pre><code>self.discriminator.trainable = True</code></pre> 某些促销在产

前端之家
2022-08-15 • 问答
在pyspark查询中使用临时表

我需要使用SQL将一些数据读入Spark。由于性能原因，该查询实际上需要一个临时表。当我尝试使用如下所

前端之家
2022-08-15 • 问答
PYSPARK-读取，转换EBCDIC Mainframe文件并将其拆分为DataFrame

我们有一个<strong> EBCDIC Mainframe格式文件</strong>，该文件已加载到<strong> Hadoop HDFS </strong>系统中。该文件

前端之家
2022-08-15 • 问答
运行python文件时出错：列数不匹配。\ n旧列名（1）：_ c0 \ n新列名（4）

当我运行以下代码时，出现了一些错误，提示列数不匹配。\ n旧列名（1）：_ c0 \ n新列名（4）：由于我

前端之家
2022-08-15 • 问答
如何在pyspark中拆除CLOB？

我从Oracle压缩了数据，并且该表的列包含CLOB DataType，我将其设置为String以获取HDFS中的数据。现在，我必

前端之家
2022-08-15 • 问答
在pyspark数据框中遍历两列的同时向新列添加值

我有一个带有列的pyspark数据框（除了更多列）：每个月有多个ID。每个ID的活动状态由数量列确定。如

前端之家
2022-08-15 • 问答
将数据框加载到具有关系的表

我正在学习pySpark。感谢您的帮助。我有一个数据框 <pre><code>test={} test["1"]={"id":"1",&

前端之家
2022-08-15 • 问答
如何使用python在pyspark上运行sql查询？

嗨，我是pyspark的新手，我没有在pyspark中编写代码，因此我需要帮助来使用python在pyspark上运行sql查询。 <

前端之家
2022-08-15 • 问答
使用python在pyspark中运行sql查询时出错

您好，我编写了一个代码，其中我要从TERR.txt文件创建数据帧。现在，我正在尝试运行sql查询，但出现了

前端之家
2022-08-15 • 问答
PySpark-将JSON对象列表转换为行

我要转换对象列表并将其属性存储为列。 <pre><code>{ "heading": 1, "columns": [ { "

前端之家
2022-08-15 • 问答
在pyspark [non pandas]中为数据框的每一行调用一个函数

pyspark中有一个功能： <pre><code>def sum(a,b): c=a+b return c </code></pre> 它必须使用spark sql在非常大

前端之家
2022-08-15 • 问答
在MySQL SQL语句中创建MySQL语句

如何将该MySQL语句转换为Spark SQL语句？ <pre><code>set_engagement_sql = """ UPDATE """ + my_table

前端之家
2022-08-15 • 问答
将不同事件的计数结果分成pyspark中的不同列

我有一个rdd，需要从中提取多个事件的计数。初始rdd看起来像这样 <pre><code>+----------+--------------------+

前端之家
2022-08-15 • 问答
如何在Pyspark UDF中返回双精度列表？

<code>from pyspark.sql import functions as func</code> 我有一个Pyspark数据框，称为<code>df</code>。它具有以下

前端之家
2022-08-15 • 问答
如何在pyspark中读取具有架构的csv，其中包含具有空值的列？

我正在尝试读取具有大量列的csv，该模式已定义，但其中一列具有所有空值。应该是一个字符串。如何

前端之家
2022-08-15 • 问答
安装后如何使Pyspark在Windows上运行

一周前，我在Windows 10机器上安装了Pyspark，并且一切正常，甚至运行了一个示例程序。但是，当我今天尝

前端之家
2022-08-15 • 问答
Pyspark订单在多于一列上排序时给出错误的结果

概述：我正在尝试按多个列对spark DF进行排序，而生成的DF仅按一列进行排序。预期结果：DF的名

前端之家
2022-08-15 • 问答
从Python列表向PySpark DataFrame添加新列

我有一个列表： <pre><code>dates = [2017, 2018, 2018, 2018, 2019, 2019, 2019, 2020, 2020, 2020] </code></pre> 我尝试将

前端之家
2022-08-15 • 问答
在pyspark数据框中使用复制名称加入后，使用左表中的所有列进行分组

我有一个通过连接两个表获得的Spark DataFrame。他们共享“名称”列 <pre><code>valuesA = [('A',1,5),(&#3

前端之家
2022-08-15 • 问答
即使在包含罐子之后也找不到Pyspark类org.openx.data.jsonserde.JsonSerDe

我正在尝试执行一个简单的选择： <pre><code>spark = SparkSession \ .builder \ .config("hive.mapred.supports

前端之家
2022-08-15 • 问答
PySpark在列值上并行拆分DataFame

更新：添加了<code>repartition</code>和<code>persist</code>。我有一个数据框（数据来自json），其中包含

前端之家
2022-08-15 • 问答
连接具有不相等行数的PySpark数据框

我有两个PySpark数据框，如下所示首先是<code>df1</code>，如下所示： <pre><code>+-----+-----+----------+-

前端之家
2022-08-14 • 问答
如何在pyspark中进行学生t测试？

因为在ml.stat模块中没有方法，所以在pyspark中是否可以执行学生t检验。

前端之家
2022-08-14 • 问答
PySpark数据框样本描述

我有一个具有500万行的PySpark DataFrame，并且想要获得随机选择的子集的描述。当我生成相同分数的

前端之家
2022-08-14 • 问答
在PySpark日期列中获取每年的最新日期

我有一张这样的桌子： <pre><code>+----------+-------------+ | date|BALANCE_DRAWN| +----------+-------------+ |2017-01-

前端之家
2022-08-14 • 问答
Spark SQL更新/删除

当前，我正在使用pySpark进行一个项目，该项目读取一些Hive表，并将它们存储为数据帧，并且我必须对它

前端之家
2022-08-14 • 问答
在时间窗口中聚合

我有一个PySpark数据帧（例如<code>df</code>），如下所示： <pre><code>+-----+-----+----------+-----+ | name| type| ti

前端之家
2022-08-14 • 问答
pyspark列总和转置

我的数据框看起来像- <pre><code>+---+---+---+---+ | id| w1| w2| w3| +---+---+---+---+ | 1|100|150|200| | 2|200|400|500| |

前端之家
2022-08-14 • 问答
Pyspark中时间戳的滚动平均值和天数之和

我有一个PySpark数据帧，其中时间戳以天为单位。以下是数据框的示例（我们称其为<code>df</code>）： <

前端之家
2022-08-14 • 问答
有没有办法将在for循环期间创建的变量写入pyspark中的数据帧？

我正在for循环中创建四个变量，我试图将这些变量写入pyspark的数据帧中。然后，我想将此数据帧写入镶

前端之家
2022-08-14 • 问答