-
Spark-如何通过密钥合并2个数据帧以及如何通过createdTime重复数据删除
我是Spark和mapreduce的新手。我想寻求帮助,请采取以下任何优雅的方法。 因为我有一个数据框A。 然后我 -
如何从String Spark Java列表数据集创建String数据集
我有一个字符串列表数据集,我需要从上面创建一个新的数据集,并将列表的每个条目作为新数据集中 -
Apache Spark如何收集和协调执行者的结果
发布此问题以了解Apache Spark如何收集和协调执行者的结果。 假设我正在与3个执行者一起工作。我 -
从Scala中的Epochtime仅提取小时
我有一个数据框,其列之一为epochtime。 我只想从中提取一个小时,并将其显示为单独的列。 下面 -
澄清在Scala中使用spark数据框
我有3个数据框'u','join5'和站点。 这是数据框'u'的架构。 <pre><code>scala> println(u.printSchema) root -
带有Glue + S3的基于Spark成本的优化器
我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3 -
在Spark SQL中使用别名值从现有数据框创建另一个数据框
我正在使用带有scala的spark 1.6。 我创建了一个如下所示的数据框。 <pre><code>DATA SKU, MAKE, MODE -
Apache Spark RDD和多级列头文件
在python中,Apache Spark RDD是否支持多层列?这是我想要做的: 1)我有一个带有多级列标题(前2行 -
Spark:UDF执行了多次
我有一个带有以下代码的数据框: <pre><code>def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon} -
还有其他方法可以在sparkSQL / scala中编写代码
如何使用Spark中的数据框从嵌套JSON中选择数据。 从下面的示例JSON中,我想从Array中的Array中选择数据。</ -
Spark 2.0+:spark.sql.files.maxPartitionBytes不起作用?
我的理解是,当spark从hdfs读取数据时,<code>spark.sql.files.maxPartitionBytes</code>用于控制分区大小。 但是,我 -
Spark:舞台边界上的磁盘I / O说明
仅在一些<a href="https://blog.cloudera.com/how-to-tune-your-apache-spark-jobs-part-1/" rel="nofollow noreferrer">this</a>之类的Spa -
使用选项sessionInitStatement,Oracle“更改会话集EDITION ..”似乎不起作用
我想从激活Oracle版本功能时可见的视图中进行选择。 <pre><code>alter session set EDITION=MYEDITION view1 view1_ed -
使用Spark 2.4识别空的JSON文件
我想避免处理空的JSON文件。我得到的一些空的JSON文件仅包含左方括号和右方括号,例如:<code>[]</code>。 -
如何在Dataframe上处理类似Spark Map的作业,其中每行输出取决于当前行和上一个输出?
任何人都可以帮助解决以下问题吗? <strong>形式问题</strong> 在给定类型为<code>A</code>的数据帧的 -
Pyspark UDF函数引发错误
我正在尝试实现两个时间戳列值之间的差异。尝试使用Spark中提供的不同方法来获得相同的结果。使用Spa -
是否有其他方法可以在Spark中进行迭代联接-scala
用例是在给定的列中找到n个最大行(这些列可以是n个列),一旦拥有n个键,便将其重新连接到原始数 -
如何在Spark中更新dataFrame列的值
我的数据框包含国家/地区名称的缩写: <pre><code>Dense</code></pre> 我还有一个枚举,包含国家名称和 -
使用Sparklyr返回逻辑计划
我们正在尝试获取Spark为给定查询生成的<strong>逻辑</strong>计划(不要与<em> physical </em>计划混淆)。根据 -
pyspark根据匹配数据将导入列从一个df合并到另一个
我对使用数据帧非常陌生。 我有两个框架。 一个被称为<code>new</code>,另一个被称为<code>existing< -
将StopWordsRemover和RegexTokenizer应用于spark 2.4.3中的多个列
我有以下数据框df4 <pre><code>|Itemno |fits_assembly_id |fits_assembly_name -
修改mapPartitions
我正在尝试通过从其余API中获取信息来丰富数据帧,但又不让它感到不知所措-也就是说,我所寻找的本 -
如何将JSON字符串数组分解为行?
我的UDF函数以字符串形式返回一个json对象数组,如何将其扩展为数据帧行? 如果不可能,还有其 -
如何在PySpark程序中打印变量或数据框以进行控制台?
我是Spark的新手,试图像使用Pandas进行数据分析一样使用它。 在熊猫中,要查看变量,我将编写 -
由于权限问题,spark作业在客户端模式下运行,但未在集群模式下运行
我正在使用如下的spark-sbumit脚本文件运行我的spark-job <pre><code>export SPARK_HOME=/local/apps/analytics/spark-2.4. -
写入新的S3存储桶时,从源S3存储桶继承分区
以具有以下结构的S3存储桶为例: <code>s3://francesco-totti/day/hour/min/*.json.lzo</code> 一个具体的 -
为什么火花计数动作分三个阶段执行
我已经加载了一个csv文件。将其重新分区为4,然后对DataFrame进行计数。当我查看DAG时,我看到此操作分3 -
脚本结束时使用了无Pyspark的资源和其他清理
您能告诉我如何正确结束pyspark脚本吗? 目前,我的脚本结束时只有<code>spark.stop()</code>。 这<code>st -
不在Presto v.s Spark SQL的实现中
我得到了一个非常简单的查询,该查询在同一硬件上运行Spark SQL和Presto时(3小时v.s 3分钟)显示出显着 -
Apache Spark:200个Reducer任务如何聚合20000+个映射器输出?
<strong>更新的问题</strong> 我不清楚的地方=> 在<strong> ShuffleMapStage </strong>中,每个映射器都会创建