-
如何在Hive / Spark SQL中使用窗口函数删除重叠
我有一张包含客户和产品信息的表。 <pre><code>self.discriminator.trainable = True</code></pre> 某些促销在产 -
在pyspark查询中使用临时表
我需要使用SQL将一些数据读入Spark。由于性能原因,该查询实际上需要一个临时表。当我尝试使用如下所 -
PYSPARK-读取,转换EBCDIC Mainframe文件并将其拆分为DataFrame
我们有一个<strong> EBCDIC Mainframe格式文件</strong>,该文件已加载到<strong> Hadoop HDFS </strong>系统中。该文件 -
运行python文件时出错:列数不匹配。\ n旧列名(1):_ c0 \ n新列名(4)
当我运行以下代码时,出现了一些错误,提示列数不匹配。\ n旧列名(1):_ c0 \ n新列名(4):由于我 -
如何在pyspark中拆除CLOB?
我从Oracle压缩了数据,并且该表的列包含CLOB DataType,我将其设置为String以获取HDFS中的数据。现在,我必 -
在pyspark数据框中遍历两列的同时向新列添加值
我有一个带有列的pyspark数据框(除了更多列): 每个月有多个ID。每个ID的活动状态由数量列确定。如 -
将数据框加载到具有关系的表
我正在学习pySpark。感谢您的帮助。我有一个数据框 <pre><code>test={} test["1"]={"id":"1",& -
如何使用python在pyspark上运行sql查询?
嗨,我是pyspark的新手,我没有在pyspark中编写代码,因此我需要帮助来使用python在pyspark上运行sql查询。 < -
使用python在pyspark中运行sql查询时出错
您好,我编写了一个代码,其中我要从TERR.txt文件创建数据帧。现在,我正在尝试运行sql查询,但出现了 -
PySpark-将JSON对象列表转换为行
我要转换对象列表并将其属性存储为列。 <pre><code>{ "heading": 1, "columns": [ { " -
在pyspark [non pandas]中为数据框的每一行调用一个函数
pyspark中有一个功能: <pre><code>def sum(a,b): c=a+b return c </code></pre> 它必须使用spark sql在非常大 -
在MySQL SQL语句中创建MySQL语句
如何将该MySQL语句转换为Spark SQL语句? <pre><code>set_engagement_sql = """ UPDATE """ + my_table -
将不同事件的计数结果分成pyspark中的不同列
我有一个rdd,需要从中提取多个事件的计数。初始rdd看起来像这样 <pre><code>+----------+--------------------+ -
如何在Pyspark UDF中返回双精度列表?
<code>from pyspark.sql import functions as func</code> 我有一个Pyspark数据框,称为<code>df</code>。它具有以下 -
如何在pyspark中读取具有架构的csv,其中包含具有空值的列?
我正在尝试读取具有大量列的csv,该模式已定义,但其中一列具有所有空值。应该是一个字符串。如何 -
安装后如何使Pyspark在Windows上运行
一周前,我在Windows 10机器上安装了Pyspark,并且一切正常,甚至运行了一个示例程序。但是,当我今天尝 -
Pyspark订单在多于一列上排序时给出错误的结果
概述:我正在尝试按多个列对spark DF进行排序,而生成的DF仅按一列进行排序。 预期结果:DF的名 -
从Python列表向PySpark DataFrame添加新列
我有一个列表: <pre><code>dates = [2017, 2018, 2018, 2018, 2019, 2019, 2019, 2020, 2020, 2020] </code></pre> 我尝试将 -
在pyspark数据框中使用复制名称加入后,使用左表中的所有列进行分组
我有一个通过连接两个表获得的Spark DataFrame。他们共享“名称”列 <pre><code>valuesA = [('A',1,5),( -
即使在包含罐子之后也找不到Pyspark类org.openx.data.jsonserde.JsonSerDe
我正在尝试执行一个简单的选择: <pre><code>spark = SparkSession \ .builder \ .config("hive.mapred.supports -
PySpark在列值上并行拆分DataFame
更新:添加了<code>repartition</code>和<code>persist</code>。 我有一个数据框(数据来自json),其中包含 -
连接具有不相等行数的PySpark数据框
我有两个PySpark数据框,如下所示 首先是<code>df1</code>,如下所示: <pre><code>+-----+-----+----------+- -
如何在pyspark中进行学生t测试?
因为在ml.stat模块中没有方法,所以在pyspark中是否可以执行学生t检验。 -
PySpark数据框样本描述
我有一个具有500万行的PySpark DataFrame,并且想要获得随机选择的子集的描述。 当我生成相同分数的 -
在PySpark日期列中获取每年的最新日期
我有一张这样的桌子: <pre><code>+----------+-------------+ | date|BALANCE_DRAWN| +----------+-------------+ |2017-01- -
Spark SQL更新/删除
当前,我正在使用pySpark进行一个项目,该项目读取一些Hive表,并将它们存储为数据帧,并且我必须对它 -
在时间窗口中聚合
我有一个PySpark数据帧(例如<code>df</code>),如下所示: <pre><code>+-----+-----+----------+-----+ | name| type| ti -
pyspark列总和转置
我的数据框看起来像- <pre><code>+---+---+---+---+ | id| w1| w2| w3| +---+---+---+---+ | 1|100|150|200| | 2|200|400|500| | -
Pyspark中时间戳的滚动平均值和天数之和
我有一个PySpark数据帧,其中时间戳以天为单位。以下是数据框的示例(我们称其为<code>df</code>): < -
有没有办法将在for循环期间创建的变量写入pyspark中的数据帧?
我正在for循环中创建四个变量,我试图将这些变量写入pyspark的数据帧中。然后,我想将此数据帧写入镶