apache-spark

R：将两个csv文件与spark合并

我有两个非常大的csv文件，并且我在R中使用spark。我的第一个文件是以这种方式上传的： <pre><code>dat

前端之家
2022-08-16 • 问答
Spark-如何通过密钥合并2个数据帧以及如何通过createdTime重复数据删除

我是Spark和mapreduce的新手。我想寻求帮助，请采取以下任何优雅的方法。因为我有一个数据框A。然后我

前端之家
2022-08-16 • 问答
为什么createDirectStream仅创建一个使用者？（这导致可用性低！！）

我在Spark流中使用 kafkaUtils.createDirectStream（）。这种方法将帮助我创建一个组的kafka使用者

前端之家
2022-08-16 • 问答
如何从String Spark Java列表数据集创建String数据集

我有一个字符串列表数据集，我需要从上面创建一个新的数据集，并将列表的每个条目作为新数据集中

前端之家
2022-08-16 • 问答
Apache Spark如何收集和协调执行者的结果

发布此问题以了解Apache Spark如何收集和协调执行者的结果。假设我正在与3个执行者一起工作。我

前端之家
2022-08-16 • 问答
如何在Spark ML管道中执行CSV查找

我有一个Spark ML管道，需要将其部署为MLeap序列化模型。模型运行良好，但与预测一起，我还想输

前端之家
2022-08-16 • 问答
码头工人齐柏林飞艇上的码头工人火花？

我是docker的新手 对docker容器的概念感到困惑 我试图在齐柏林飞艇上使用以下网站的火花<b

前端之家
2022-08-16 • 问答
Azure Databricks：如何在Databricks群集中添加Spark配置

我正在使用Spark Databricks集群，并希望添加自定义的Spark配置。 关于此有一个Databricks文档，但是我不

前端之家
2022-08-16 • 问答
从Scala中的Epochtime仅提取小时

我有一个数据框，其列之一为epochtime。我只想从中提取一个小时，并将其显示为单独的列。下面

前端之家
2022-08-16 • 问答
将S3存储桶的前几个文件加载到Spark数据帧中的最佳方法

我正在尝试从S3存储桶中加载一些csv文件，以使用EMR触发数据帧。问题是由于海量数据，我无法一起处理

前端之家
2022-08-16 • 问答
从Spark Scala中的txt或csv文件读取时从csv中删除标头

我正在尝试从给定的输入文件中删除标题。但是我做不到。这就是我写的。有人可以帮我如何从txt或csv

前端之家
2022-08-16 • 问答
有没有一种方法可以解析DataFrame.write的确切文件路径？

我正在使用write方法将spark DataFrame写入S3，并且想知道是否有一种方法可以解析确切的输出文件路径。</p

前端之家
2022-08-16 • 问答
澄清在Scala中使用spark数据框

我有3个数据框'u'，'join5'和站点。这是数据框'u'的架构。 <pre><code>scala> println(u.printSchema) root

前端之家
2022-08-16 • 问答
spark-在scala源代码中定义数据框的位置

我试图在scala源代码中找到pyspark中的DataFrame类定义。有些文件类似DataFrameReader，DataFrameWriter，Datas

前端之家
2022-08-16 • 问答
如何使用Kafka数据源指定流查询的Kafka自定义配置（例如Confluent Cloud身份验证）？

我想使用针对Confluent Cloud的结构化流进行读写。问题是我无法在文档中找到进行身份验证的方法。 <

前端之家
2022-08-16 • 问答
带有Glue + S3的基于Spark成本的优化器

我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3

前端之家
2022-08-16 • 问答
分割后变换数组的元素

我有一个带有1个数组列<code>col1</code>的spark DF <pre><code>+--------------------------+ |COL1 |

前端之家
2022-08-16 • 问答
在Spark SQL中使用别名值从现有数据框创建另一个数据框

我正在使用带有scala的spark 1.6。我创建了一个如下所示的数据框。 <pre><code>DATA SKU, MAKE, MODE

前端之家
2022-08-16 • 问答
Apache Spark RDD和多级列头文件

在python中，Apache Spark RDD是否支持多层列？这是我想要做的： 1）我有一个带有多级列标题（前2行

前端之家
2022-08-16 • 问答
我是否尽可能使用Apache Spark？

我目前正在研究apache spark。我当前在本地计算机上的单节点配置上运行。作为实践，我获取一个表示事

前端之家
2022-08-16 • 问答
应用转换后需要将数据从Hadoop加载到Druid。如果使用Spark，是否可以将数据从Spark RDD或数据帧直接加载到Druid？

我的蜂巢表中有数据。我想在将数据加载到德鲁伊之前应用一堆转换。所以有很多方法，但我不确定。

前端之家
2022-08-16 • 问答
col

我的问题与Spark Streaming和一个JSON列有关，即func_params列。但是正如您在下面的架构定义中看到的那样，

前端之家
2022-08-16 • 问答
Spark：UDF执行了多次

我有一个带有以下代码的数据框： <pre><code>def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon}

前端之家
2022-08-16 • 问答
如何通过编号而不是名称在数据框中选择列

我想通过编号而不是名称在Spark数据框中选择一个列。有可能吗？谢谢

前端之家
2022-08-16 • 问答
Pyspark-循环遍历structType和ArrayType在structfield中进行类型转换

我对pyspark很陌生，这个问题令我感到困惑。基本上，我正在寻找一种通过structType或ArrayType进行类型转换

前端之家
2022-08-16 • 问答
您可以使用Scala反射在当前范围内查找变量吗？

我们有一个胖子用来存储Spark作业，并使用通用代码运行所说的Spark作业。当我们从事新工作时，

前端之家
2022-08-16 • 问答
Spark与数百个列处理JSON数据

我正在本地模式下在Scala中为Spark应用程序进行POC。我需要处理一个JSON数据集，其中包含300列，但记录较

前端之家
2022-08-16 • 问答
手动指定Spark执行程序的数量

我有1000个实木复合地板文件，并且我希望在中间阶段每个文件都由一名执行者处理。有没有一种方法可

前端之家
2022-08-16 • 问答
Spark 2.0+：spark.sql.files.maxPartitionBytes不起作用？

我的理解是，当spark从hdfs读取数据时，<code>spark.sql.files.maxPartitionBytes</code>用于控制分区大小。但是，我

前端之家
2022-08-16 • 问答
Spark：舞台边界上的磁盘I / O说明

仅在一些<a href="https://blog.cloudera.com/how-to-tune-your-apache-spark-jobs-part-1/" rel="nofollow noreferrer">this</a>之类的Spa

前端之家
2022-08-16 • 问答

首页

下一页
末页