apache-spark-sql

Spark-如何通过密钥合并2个数据帧以及如何通过createdTime重复数据删除

我是Spark和mapreduce的新手。我想寻求帮助，请采取以下任何优雅的方法。因为我有一个数据框A。然后我

前端之家
2022-08-16 • 问答
如何从String Spark Java列表数据集创建String数据集

我有一个字符串列表数据集，我需要从上面创建一个新的数据集，并将列表的每个条目作为新数据集中

前端之家
2022-08-16 • 问答
Apache Spark如何收集和协调执行者的结果

发布此问题以了解Apache Spark如何收集和协调执行者的结果。假设我正在与3个执行者一起工作。我

前端之家
2022-08-16 • 问答
从Scala中的Epochtime仅提取小时

我有一个数据框，其列之一为epochtime。我只想从中提取一个小时，并将其显示为单独的列。下面

前端之家
2022-08-16 • 问答
澄清在Scala中使用spark数据框

我有3个数据框'u'，'join5'和站点。这是数据框'u'的架构。 <pre><code>scala> println(u.printSchema) root

前端之家
2022-08-16 • 问答
带有Glue + S3的基于Spark成本的优化器

我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3

前端之家
2022-08-16 • 问答
在Spark SQL中使用别名值从现有数据框创建另一个数据框

我正在使用带有scala的spark 1.6。我创建了一个如下所示的数据框。 <pre><code>DATA SKU, MAKE, MODE

前端之家
2022-08-16 • 问答
Apache Spark RDD和多级列头文件

在python中，Apache Spark RDD是否支持多层列？这是我想要做的： 1）我有一个带有多级列标题（前2行

前端之家
2022-08-16 • 问答
Spark：UDF执行了多次

我有一个带有以下代码的数据框： <pre><code>def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}

前端之家
2022-08-16 • 问答
还有其他方法可以在sparkSQL / scala中编写代码

如何使用Spark中的数据框从嵌套JSON中选择数据。从下面的示例JSON中，我想从Array中的Array中选择数据。</

前端之家
2022-08-16 • 问答
Spark 2.0+：spark.sql.files.maxPartitionBytes不起作用？

我的理解是，当spark从hdfs读取数据时，<code>spark.sql.files.maxPartitionBytes</code>用于控制分区大小。但是，我

前端之家
2022-08-16 • 问答
Spark：舞台边界上的磁盘I / O说明

仅在一些<a href="https://blog.cloudera.com/how-to-tune-your-apache-spark-jobs-part-1/" rel="nofollow noreferrer">this</a>之类的Spa

前端之家
2022-08-16 • 问答
使用选项sessionInitStatement，Oracle“更改会话集EDITION ..”似乎不起作用

我想从激活Oracle版本功能时可见的视图中进行选择。 <pre><code>alter session set EDITION=MYEDITION view1 view1_ed

前端之家
2022-08-16 • 问答
使用Spark 2.4识别空的JSON文件

我想避免处理空的JSON文件。我得到的一些空的JSON文件仅包含左方括号和右方括号，例如：<code>[]</code>。

前端之家
2022-08-16 • 问答
如何在Dataframe上处理类似Spark Map的作业，其中每行输出取决于当前行和上一个输出？

任何人都可以帮助解决以下问题吗？ 形式问题 在给定类型为<code>A</code>的数据帧的

前端之家
2022-08-16 • 问答
Pyspark UDF函数引发错误

我正在尝试实现两个时间戳列值之间的差异。尝试使用Spark中提供的不同方法来获得相同的结果。使用Spa

前端之家
2022-08-16 • 问答
是否有其他方法可以在Spark中进行迭代联接-scala

用例是在给定的列中找到n个最大行（这些列可以是n个列），一旦拥有n个键，便将其重新连接到原始数

前端之家
2022-08-16 • 问答
如何在Spark中更新dataFrame列的值

我的数据框包含国家/地区名称的缩写： <pre><code>Dense</code></pre> 我还有一个枚举，包含国家名称和

前端之家
2022-08-16 • 问答
使用Sparklyr返回逻辑计划

我们正在尝试获取Spark为给定查询生成的逻辑计划（不要与 physical 计划混淆）。根据

前端之家
2022-08-16 • 问答
pyspark根据匹配数据将导入列从一个df合并到另一个

我对使用数据帧非常陌生。我有两个框架。一个被称为<code>new</code>，另一个被称为<code>existing<

前端之家
2022-08-16 • 问答
将StopWordsRemover和RegexTokenizer应用于spark 2.4.3中的多个列

我有以下数据框df4 <pre><code>|Itemno |fits_assembly_id |fits_assembly_name

前端之家
2022-08-16 • 问答
修改mapPartitions

我正在尝试通过从其余API中获取信息来丰富数据帧，但又不让它感到不知所措-也就是说，我所寻找的本

前端之家
2022-08-16 • 问答
如何将JSON字符串数组分解为行？

我的UDF函数以字符串形式返回一个json对象数组，如何将其扩展为数据帧行？如果不可能，还有其

前端之家
2022-08-16 • 问答
如何在PySpark程序中打印变量或数据框以进行控制台？

我是Spark的新手，试图像使用Pandas进行数据分析一样使用它。在熊猫中，要查看变量，我将编写

前端之家
2022-08-16 • 问答
由于权限问题，spark作业在客户端模式下运行，但未在集群模式下运行

我正在使用如下的spark-sbumit脚本文件运行我的spark-job <pre><code>export SPARK_HOME=/local/apps/analytics/spark-2.4.

前端之家
2022-08-16 • 问答
写入新的S3存储桶时，从源S3存储桶继承分区

以具有以下结构的S3存储桶为例： <code>s3://francesco-totti/day/hour/min/*.json.lzo</code> 一个具体的

前端之家
2022-08-16 • 问答
为什么火花计数动作分三个阶段执行

我已经加载了一个csv文件。将其重新分区为4，然后对DataFrame进行计数。当我查看DAG时，我看到此操作分3

前端之家
2022-08-16 • 问答
脚本结束时使用了无Pyspark的资源和其他清理

您能告诉我如何正确结束pyspark脚本吗？目前，我的脚本结束时只有<code>spark.stop()</code>。这<code>st

前端之家
2022-08-16 • 问答
不在Presto v.s Spark SQL的实现中

我得到了一个非常简单的查询，该查询在同一硬件上运行Spark SQL和Presto时（3小时v.s 3分钟）显示出显着

前端之家
2022-08-16 • 问答
Apache Spark：200个Reducer任务如何聚合20000+个映射器输出？

更新的问题 我不清楚的地方=> 在 ShuffleMapStage 中，每个映射器都会创建

前端之家
2022-08-16 • 问答

首页

下一页
末页