apache-spark-dataset

Apache Spark RDD和多级列头文件

在python中，Apache Spark RDD是否支持多层列？这是我想要做的： 1）我有一个带有多级列标题（前2行

前端之家
2022-08-16 • 问答
如何在火花编码器中映射Cassandra日期类型？

我正在尝试在cassandra表上实现简单的聚合。但无法在Spark中映射cassandra日期类型。尝试映射<code>String</code

前端之家
2022-08-16 • 问答
原因：java.lang.IllegalArgumentException：类型（Scratch.Bar）的值X不能转换为struct <alias：string>

我很困惑为什么以下代码从标题中引发异常： <pre><code>class Scratch { public static void main(String[] args) {

前端之家
2022-08-16 • 问答
读取镶木地板文件时刷新数据帧的元数据

我正在尝试将实木复合地板文件作为数据帧读取，该数据帧将定期更新（路径为<code>/folder_name</code>。每

前端之家
2022-08-16 • 问答
在Java Spark中尝试zipWithIndex时出错

我尝试使用<code>handleSubmit</code>在Spark中添加具有行号的列，如下所示： <pre><code>zipWithIndex</code></pre>

前端之家
2022-08-15 • 问答
如何将Spark的Decimal数据帧转换为具有相同精度的BigDecimal的数据集？

如何以给定的精度创建具有BigDecimal的spark数据集？请参见spark外壳中的以下示例。您将看到我可以使用所

前端之家
2022-08-14 • 问答
在Spark DataFrame中将空数组替换为null

考虑如下数据框： <pre><code>+---+----+--------+----+ | c1| c2| c3| c4| +---+----+--------+----+ | x| n1| [m1]|

前端之家
2022-08-14 • 问答
Spark的数据集的limit函数创建一个只有1个分区的新数据集。为什么？

我刚刚意识到（经过一些经验测试），在<code>limit</code>上应用<code>Dataset</code>函数会产生一个只有一个分

前端之家
2022-08-13 • 问答
使用Java对Spark数据集中的多列求和

我一直在使用 <code>ds = ds.withColumn("WA_POP", ds.col("WA_MALE").plus(ds.col("WA_FEMALE"))</code>

前端之家
2022-08-13 • 问答
在Sparksession读取期间创建数据集时，是否可以使用无效的模式来标识输入XML文件

我正在阅读XML文件列表以创建数据集，并希望识别具有无效架构的XML。 <pre><code>sparkSession.read().format(

前端之家
2022-08-13 • 问答
值collectAsMap不是org.apache.spark.sql.Dataset [（Any，Any）]的成员

我正在尝试在以下语句中使用<code>collectmap()</code>，但出现以下错误。 <pre><code>val Comic_Titles=comics_df.ma

前端之家
2022-08-13 • 问答
如何根据由user_id

我有如下的JSON原始数据 <pre><code>{"event" : "login","time" : "2019-11-20 00:14:46","us

前端之家
2022-08-13 • 问答
根据列的值在spark数据集中添加行号

我有一个示例<code>Dataset<Row></code>如下 <pre><code>+----+----+ |col1|col2| +----+----+ | a| a | | a| b | | b

前端之家
2022-08-12 • 问答
在Spark Java中采用两个数据集的并集的必要条件是什么

什么是必要条件，例如没有列，相同列或不同列

前端之家
2022-08-12 • 问答
dataset.collectAsList（）导致集群中的java.lang.ClassCastException

当我使用IntelliJ在Local中执行<code>List<Row> rows = (List<Row>) dataset.collectAsList();</code>时，我得到了结

前端之家
2022-08-11 • 问答
将数据框转换为数据集有哪些缺点

我正在编写一个spark数据管道，并且我想通过使用数据集来强制类型化的数据模型，因此我可以将转换编

前端之家
2022-08-11 • 问答
Spark无法爆炸列

对于给定的JSON响应： <pre><code>{ "id": "1575972348068_1649088229", "results": [ {

前端之家
2022-08-10 • 问答
在SPARK中，当数据帧仅使用一次时，缓存数据帧有何帮助

<blockquote> 我知道，如果要在多个地方使用同一数据框，那么缓存一个数据框会很有帮助。 </blockquo

前端之家
2022-08-09 • 问答
Scala中的数据集forEach循环抛出SparkException任务无法序列化

除了我正在使用Scala之外，我的问题确实与<a href="https://stackoverflow.com/questions/49289566/spark-task-not-serializable

前端之家
2022-08-09 • 问答
数据集过滤器工作异常

场景：我已经通过指定加载模式读取了两个XML文件。在架构中，标记之一是必需的。一种XML缺少

前端之家
2022-08-09 • 问答
Spark：数据集-Java POJO类

<h2>我正在尝试构建Java-Spark应用程序，其想法如下：</h2> <ul> <li> 1）我有从数据库中获取的数据集，然后我

前端之家
2022-08-09 • 问答
根据列列表过滤数据集

我正在尝试根据为空的列列表过滤数据集。然后，我想收集整个列表，并从原始数据集中过滤掉所有这

前端之家
2022-08-09 • 问答
Spark如何在本地模式下内部工作？

如何在本地模式下的Spark中正确配置内存，因为驱动程序和执行程序（都是相同的JVM）设置的工作方式与

前端之家
2022-08-09 • 问答
Spark 2.4.4分析带有自定义分隔符的文本文件错误

我们最近将Apache Spark从2.4.0升级到2.4.4，并且最近在执行带有自定义分隔符的文本文件读取功能时遇到以

前端之家
2022-08-09 • 问答
联合火花数据集循环

我正在尝试将数据集循环添加到空数据集。但是结果数据集始终为空。我试图通过仅执行代码中

前端之家
2022-08-09 • 问答
Spark 2.1.x数据集API-了解groupByKey和reduceGroups行为

我正在玩Dataset API来减少一些元素，我注意到“奇怪”但也许是正常行为。在<code>reduceGroups</code>

前端之家
2022-08-07 • 问答
在Spark数据集中添加ADT列？

我想创建一个包含ADT列的数据集。基于以下问题：<a href="https://stackoverflow.com/questions/41030073/encode-an-adt-sea

前端之家
2022-08-07 • 问答
无法使用Spark中的数据集对字节数组字段进行排序

我正在尝试对一个类中包含byte []字段的数据集进行排序。对数据集进行排序之后，我将它们以拼写形式

前端之家
2022-08-06 • 问答
使用foldLeft和withColumn将SQL SQL替换为groupby / pivot / agg / collect_list，以提高性能

我有一个由三列组成的Spark DataFrame： <pre><code> id | col1 | col2 ----------------- x | p1 | a1 ----------------

前端之家
2022-08-05 • 问答
如何通过具有数组列的DataFrame改善Spark SQL查询性能？

比方说，我有两个数据帧<code>head</code>和<code>df1</code>，它们有许多数组类型的列。一些列可以具有<code>df

前端之家
2022-08-05 • 问答

首页

下一页
末页