pyspark

PySpark在列值上并行拆分DataFame

更新：添加了<code>repartition</code>和<code>persist</code>。我有一个数据框（数据来自json），其中包含

前端之家
2022-08-15 • 问答
删除pyspark数据框中value为字符串的行

我正在尝试使用Apache Spark对存储在MongoDB数据库中的地理空间数据使用KMeans。数据具有以下格式， <pre

前端之家
2022-08-15 • 问答
日期时间列Pyspark的时移

我对此代码有疑问，在<strong> events_as_df </strong> pyspark数据帧中传递时，打印的<em> event_start_at </em>和<em> ev

前端之家
2022-08-15 • 问答
是否可以在Pyspark中将.agg（dictionary）合并并使用.alias（）重命名结果列？

我有一个pyspark数据框'pyspark_df'，我想将数据分组并使用通用函数字符串名称（如以下之一）聚合数据：'

前端之家
2022-08-15 • 问答
使用PySpark将数据从HDFS索引到Elastic Search

我正在尝试使用Pyspark从HDFS将数据索引到Elastic搜索。当数据大于50 mb小于100 mb时，作业将失败。

前端之家
2022-08-15 • 问答
PySpark：仅在数据框的一部分上使用Pandas分组地图UDF？

我想在我的Spark数据上运行Pandas GROUPED_MAP UDF，但保留一些列（即，不通过UDF运行它们，也不必使用联接

前端之家
2022-08-15 • 问答
如何为Zeppelin笔记本电脑（PySpark / Glue）正确设置作业参数

我希望能够像通常在粘合作业中一样从sys.argv中检索值，例如： <pre><code>args = getResolvedOptions(sys.argv, [

前端之家
2022-08-15 • 问答
使用cloudera CDH5.13运行简单的pyspark代码时出错

我正在运行以下简单代码。实际上，我刚刚开始使用cloudera cdh练习spark。我的目标是读取“订单”表，然

前端之家
2022-08-15 • 问答
Apache Spark-ModuleNotFoundError：没有名为“ mysql”的模块

我正在尝试将Apache Spark驱动程序提交到远程集群。我在使用名为<code>mysql</code>的python软件包时遇到了困

前端之家
2022-08-15 • 问答
在Spark / GraphX上进行批处理

我在graphx上有数据（顶点和边），我能够通过g.vertices.filter（“ Code == 123”）。show（）这样的命令对它

前端之家
2022-08-15 • 问答
无法使用pyspark数据帧将utm转换为latlong

我是pyspark的新手，并且遇到以下问题：我正在尝试做的事情：我需要将UTM区域10中的坐标转换为

前端之家
2022-08-15 • 问答
获取PySpark数据框上

我有一个ID和购买的pyspark DF，我正尝试对其进行转换以用于FP增长。目前，对于给定的ID，我有多行，每

前端之家
2022-08-15 • 问答
Pyspark连接到Microsoft SQL Server？

我在SQL Server中有一个庞大的数据集，我想将SQL Server与python连接，然后使用pyspark运行查询。我已

前端之家
2022-08-15 • 问答
如何从Pyspark数据框列中选择一些行并将其添加到新数据框？

我有10个数据帧，<code>df1...df10</code>有2列： <h2> <code>df1</code> </h2> <code>id | 2011_result</code>， <h2>

前端之家
2022-08-14 • 问答
连接具有不相等行数的PySpark数据框

我有两个PySpark数据框，如下所示首先是<code>df1</code>，如下所示： <pre><code>+-----+-----+----------+-

前端之家
2022-08-14 • 问答
Spark提交不选择项目结构的模块和子模块

pycharm上pyspark项目的文件夹结构： <pre><code>TEST TEST (marked as sources root) com earl

前端之家
2022-08-14 • 问答
如何在pyspark中进行学生t测试？

因为在ml.stat模块中没有方法，所以在pyspark中是否可以执行学生t检验。

前端之家
2022-08-14 • 问答
使用DataFrame按组累计的总和-Pyspark

我的代码： <pre><code>df=temp_df.groupBy('date','id').count() windowval = (Window.partitionBy('date',&#

前端之家
2022-08-14 • 问答
PySpark-如何读取二进制文件并添加源文件名

我需要从HDFS文件夹中读取二进制文件，并将其转换为Pyspark中的DataFrame。我希望DataFrame列之一将是

前端之家
2022-08-14 • 问答
PySpark数据框样本描述

我有一个具有500万行的PySpark DataFrame，并且想要获得随机选择的子集的描述。当我生成相同分数的

前端之家
2022-08-14 • 问答
在PySpark日期列中获取每年的最新日期

我有一张这样的桌子： <pre><code>+----------+-------------+ | date|BALANCE_DRAWN| +----------+-------------+ |2017-01-

前端之家
2022-08-14 • 问答
将python函数传递给pyspark中的Scala RDD

我有一个Scala库，（简单地说）它接收一个函数，将其应用于RDD并返回另一个RDD <pre><code>def runFunction

前端之家
2022-08-14 • 问答
如何检查RDD

火花2.4.0 <hr /> <pre><code>rdd = rdd.cache() print(rdd.getStorageLevel()) </code></pre> <blockquote> 内存序列化1x

前端之家
2022-08-14 • 问答
Pyspark：如何仅删除少数列的dropduplicates中的两个事件

我正在为此使用pysaprk：在应用dropduplicates时，我想删除匹配行的所有出现。数据集： <p

前端之家
2022-08-14 • 问答
PySpark：如何为所有列强制转换字符串数据类型

我的主要目标是将任何df的所有列都转换为字符串，这样比较就容易了。我已经尝试过以下多种建

前端之家
2022-08-14 • 问答
如何使用PySpark结构化流计算时间戳之间的差异

PySpark结构化流媒体存在以下问题。我的流数据中的每一行都有一个用户ID和一个时间戳。现在，

前端之家
2022-08-14 • 问答
使用导入延迟（例如NLTK或PATTERN重复标签磁盘'C：// C：//..spark-core_2.11-2.3.2.jar'

问题在于Windows路径和库是像nltk一样延迟导入的，这意味着nltk和pattern在使用它们时会导入其库，此时模

前端之家
2022-08-14 • 问答
如何将像4/23/19这样的字符串解析为pysark中的时间戳

我有一些来自源文件的日期为19/4/23的列 4是月，23是日，19是2019 如何将其转换为pyspark中的

前端之家
2022-08-14 • 问答
无法通过SSL将Apache Spark连接到MongoDB

我已经在Ubuntu 18.04中成功安装了Apache Spark。我还向我的Spark安装中添加了mongo-spark-connector。我目前正在尝

前端之家
2022-08-14 • 问答
PySpark df.isin（）方法短路返回所有结果

我正在使用PySpark并遇到一个问题，其中isin方法通过忽略其输入col的结果来返回所有结果，在我的情况下

前端之家
2022-08-14 • 问答