-
R:将两个csv文件与spark合并
我有两个非常大的csv文件,并且我在R中使用spark。我的第一个文件是以这种方式上传的: <pre><code>dat -
Spark-如何通过密钥合并2个数据帧以及如何通过createdTime重复数据删除
我是Spark和mapreduce的新手。我想寻求帮助,请采取以下任何优雅的方法。 因为我有一个数据框A。 然后我 -
为什么createDirectStream仅创建一个使用者? (这导致可用性低!!)
我在Spark流中使用<strong> kafkaUtils.createDirectStream()</strong>。 这种方法将帮助我创建一个组的kafka使用者 -
如何从String Spark Java列表数据集创建String数据集
我有一个字符串列表数据集,我需要从上面创建一个新的数据集,并将列表的每个条目作为新数据集中 -
Apache Spark如何收集和协调执行者的结果
发布此问题以了解Apache Spark如何收集和协调执行者的结果。 假设我正在与3个执行者一起工作。我 -
如何在Spark ML管道中执行CSV查找
我有一个Spark ML管道,需要将其部署为MLeap序列化模型。 模型运行良好,但与预测一起,我还想输 -
码头工人齐柏林飞艇上的码头工人火花?
我是docker的新手<br/> 对docker容器的概念感到困惑<br/> 我试图在齐柏林飞艇上使用以下网站的火花<b -
Azure Databricks:如何在Databricks群集中添加Spark配置
我正在使用Spark Databricks集群,并希望添加自定义的Spark配置。<br/> 关于此有一个Databricks文档,但是我不 -
从Scala中的Epochtime仅提取小时
我有一个数据框,其列之一为epochtime。 我只想从中提取一个小时,并将其显示为单独的列。 下面 -
将S3存储桶的前几个文件加载到Spark数据帧中的最佳方法
我正在尝试从S3存储桶中加载一些csv文件,以使用EMR触发数据帧。问题是由于海量数据,我无法一起处理 -
从Spark Scala中的txt或csv文件读取时从csv中删除标头
我正在尝试从给定的输入文件中删除标题。但是我做不到。 这就是我写的。有人可以帮我如何从txt或csv -
有没有一种方法可以解析DataFrame.write的确切文件路径?
我正在使用write方法将spark DataFrame写入S3, 并且想知道是否有一种方法可以解析确切的输出文件路径。</p -
澄清在Scala中使用spark数据框
我有3个数据框'u','join5'和站点。 这是数据框'u'的架构。 <pre><code>scala> println(u.printSchema) root -
spark-在scala源代码中定义数据框的位置
我试图在scala源代码中找到pyspark中的DataFrame类定义。 有些文件类似DataFrameReader,DataFrameWriter,Datas -
如何使用Kafka数据源指定流查询的Kafka自定义配置(例如Confluent Cloud身份验证)?
我想使用针对Confluent Cloud的结构化流进行读写。问题是我无法在文档中找到进行身份验证的方法。 < -
带有Glue + S3的基于Spark成本的优化器
我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3 -
分割后变换数组的元素
我有一个带有1个数组列<code>col1</code>的spark DF <pre><code>+--------------------------+ |COL1 | -
在Spark SQL中使用别名值从现有数据框创建另一个数据框
我正在使用带有scala的spark 1.6。 我创建了一个如下所示的数据框。 <pre><code>DATA SKU, MAKE, MODE -
Apache Spark RDD和多级列头文件
在python中,Apache Spark RDD是否支持多层列?这是我想要做的: 1)我有一个带有多级列标题(前2行 -
我是否尽可能使用Apache Spark?
我目前正在研究apache spark。我当前在本地计算机上的单节点配置上运行。 作为实践,我获取一个表示事 -
应用转换后需要将数据从Hadoop加载到Druid。如果使用Spark,是否可以将数据从Spark RDD或数据帧直接加载到Druid?
我的蜂巢表中有数据。我想在将数据加载到德鲁伊之前应用一堆转换。所以有很多方法,但我不确定。 -
col
我的问题与Spark Streaming和一个JSON列有关,即func_params列。但是正如您在下面的架构定义中看到的那样, -
Spark:UDF执行了多次
我有一个带有以下代码的数据框: <pre><code>def test(lat: Double, lon: Double) = { println(s"testing ${lat / lon} -
如何通过编号而不是名称在数据框中选择列
我想通过编号而不是名称在Spark数据框中选择一个列。有可能吗? 谢谢 -
Pyspark-循环遍历structType和ArrayType在structfield中进行类型转换
我对pyspark很陌生,这个问题令我感到困惑。基本上,我正在寻找一种通过structType或ArrayType进行类型转换 -
您可以使用Scala反射在当前范围内查找变量吗?
我们有一个胖子用来存储Spark作业,并使用通用代码运行所说的Spark作业。 当我们从事新工作时, -
Spark与数百个列处理JSON数据
我正在本地模式下在Scala中为Spark应用程序进行POC。我需要处理一个JSON数据集,其中包含300列,但记录较 -
手动指定Spark执行程序的数量
我有1000个实木复合地板文件,并且我希望在中间阶段每个文件都由一名执行者处理。有没有一种方法可 -
Spark 2.0+:spark.sql.files.maxPartitionBytes不起作用?
我的理解是,当spark从hdfs读取数据时,<code>spark.sql.files.maxPartitionBytes</code>用于控制分区大小。 但是,我 -
Spark:舞台边界上的磁盘I / O说明
仅在一些<a href="https://blog.cloudera.com/how-to-tune-your-apache-spark-jobs-part-1/" rel="nofollow noreferrer">this</a>之类的Spa