pyspark-dataframes

在pyspark [non pandas]中为数据框的每一行调用一个函数

pyspark中有一个功能： <pre><code>def sum(a,b): c=a+b return c </code></pre> 它必须使用spark sql在非常大

前端之家
2022-08-15 • 问答
将不同事件的计数结果分成pyspark中的不同列

我有一个rdd，需要从中提取多个事件的计数。初始rdd看起来像这样 <pre><code>+----------+--------------------+

前端之家
2022-08-15 • 问答
Pyspark订单在多于一列上排序时给出错误的结果

概述：我正在尝试按多个列对spark DF进行排序，而生成的DF仅按一列进行排序。预期结果：DF的名

前端之家
2022-08-15 • 问答
删除pyspark数据框中value为字符串的行

我正在尝试使用Apache Spark对存储在MongoDB数据库中的地理空间数据使用KMeans。数据具有以下格式， <pre

前端之家
2022-08-15 • 问答
获取PySpark数据框上

我有一个ID和购买的pyspark DF，我正尝试对其进行转换以用于FP增长。目前，对于给定的ID，我有多行，每

前端之家
2022-08-15 • 问答
如何从Pyspark数据框列中选择一些行并将其添加到新数据框？

我有10个数据帧，<code>df1...df10</code>有2列： <h2> <code>df1</code> </h2> <code>id | 2011_result</code>， <h2>

前端之家
2022-08-14 • 问答
连接具有不相等行数的PySpark数据框

我有两个PySpark数据框，如下所示首先是<code>df1</code>，如下所示： <pre><code>+-----+-----+----------+-

前端之家
2022-08-14 • 问答
如何在pyspark中进行学生t测试？

因为在ml.stat模块中没有方法，所以在pyspark中是否可以执行学生t检验。

前端之家
2022-08-14 • 问答
PySpark数据框样本描述

我有一个具有500万行的PySpark DataFrame，并且想要获得随机选择的子集的描述。当我生成相同分数的

前端之家
2022-08-14 • 问答
PySpark df.isin（）方法短路返回所有结果

我正在使用PySpark并遇到一个问题，其中isin方法通过忽略其输入col的结果来返回所有结果，在我的情况下

前端之家
2022-08-14 • 问答
Spark SQL更新/删除

当前，我正在使用pySpark进行一个项目，该项目读取一些Hive表，并将它们存储为数据帧，并且我必须对它

前端之家
2022-08-14 • 问答
在时间窗口中聚合

我有一个PySpark数据帧（例如<code>df</code>），如下所示： <pre><code>+-----+-----+----------+-----+ | name| type| ti

前端之家
2022-08-14 • 问答
pyspark列总和转置

我的数据框看起来像- <pre><code>+---+---+---+---+ | id| w1| w2| w3| +---+---+---+---+ | 1|100|150|200| | 2|200|400|500| |

前端之家
2022-08-14 • 问答
Pyspark中时间戳的滚动平均值和天数之和

我有一个PySpark数据帧，其中时间戳以天为单位。以下是数据框的示例（我们称其为<code>df</code>）： <

前端之家
2022-08-14 • 问答
查找DataFrame列中存在的相似字符串，而无需在PySpark中使用for循环

我有一个DataFrame，其中包含带有字符串的列。我想找到类似的字符串，并用一些标志标记它们。我正在

前端之家
2022-08-14 • 问答
有没有办法将在for循环期间创建的变量写入pyspark中的数据帧？

我正在for循环中创建四个变量，我试图将这些变量写入pyspark的数据帧中。然后，我想将此数据帧写入镶

前端之家
2022-08-14 • 问答
pyspark unionByName操作后的多个实木复合地板文件

我正在做unionByName，将3个py spark数据帧组合到一个数据帧中。 <pre><code>df = df_array[0] df = df.unionByName(df_

前端之家
2022-08-14 • 问答
在临时表中维护过去30分钟的流数据

我有一个场景，我必须存储过去30分钟的流数据并继续根据传入数据执行某些操作。基本上，它与事件相

前端之家
2022-08-14 • 问答
以降序对pyspark数据框进行排序

我的数据框看起来像- <pre><code>id item sale 1 a 100 2 b 300 3 c 200 4

前端之家
2022-08-14 • 问答
为什么pyspark.sql下层函数不接受文字col名称和length函数呢？

在下一个示例中，为什么下层函数不接受col名称作为文字和长度呢？ <pre><code>import pyspark.sql.functions a

前端之家
2022-08-14 • 问答
pyspark中的调用函数，数据帧中的值作为字符串

我必须调用一个函数<code>func_test(spark,a,b)</code>，该函数接受两个字符串值并从中创建一个df。 <code>spark</c

前端之家
2022-08-14 • 问答
在pyspark数据框中添加合并两列的新列

我有一个带有两个日期列和几个其他列的pyspark数据框。 <pre><code>+-------+-----------+----------+----------+-- |

前端之家
2022-08-14 • 问答
在PySpark中的列上使用UADF

我试图将UDAF应用于PySpark中数据框的一列。我有一个名为pred的数据框，必须在上面应用UADF。 <pre><code

前端之家
2022-08-14 • 问答
如何在两个不同列表中包含的基于数据框的值中创建新列？

我有一个像这样的pyspark数据框： <pre><code>+--------------------+--------------------+ | label|

前端之家
2022-08-14 • 问答
从PySpark中的日期列计算一年中的星期

我的数据框看起来像- <pre><code>id date 1 2018-08-12 2 2019-01-23 3 2019-04-03 </code></p

前端之家
2022-08-14 • 问答
在Dataframe上使用where（）或filter（）时出错

我想检查数据框列<code>first_id</code>中的值是否在我拥有的id的python列表中，如果是，则应通过过滤器。</p

前端之家
2022-08-14 • 问答
数小时的Pyspark拆分功能

<a href="https://stackoverflow.com/questions/2221806/any-tool-software-in-windows-for-viewing-elf-file-format">PE</a> <pre><code>

前端之家
2022-08-13 • 问答
是否应合并使用jdbc将数据帧写入数据库？

我正在将数据帧写入到oracle，netezza等数据库表中，如下所示。 <pre><code>private devicesSubject = new ReplaySub

前端之家
2022-08-13 • 问答
管道拟合上的pyspark scala.MatchError

我正在尝试在Databricks上训练我的模型。我的训练数据包括<code>id</code>，<code>text</code>和<code>label</code>。

前端之家
2022-08-13 • 问答
PySpark数据框：带有条件的完整外部联接

我有以下2个数据帧- <pre><code>dataframe_a +----------------+---------------+ | user_id| domain| +-----------

前端之家
2022-08-13 • 问答