-
Apache Spark RDD和多级列头文件
在python中,Apache Spark RDD是否支持多层列?这是我想要做的: 1)我有一个带有多级列标题(前2行 -
如何在火花编码器中映射Cassandra日期类型?
我正在尝试在cassandra表上实现简单的聚合。但无法在Spark中映射cassandra日期类型。尝试映射<code>String</code -
原因:java.lang.IllegalArgumentException:类型(Scratch.Bar)的值X不能转换为struct <alias:string>
我很困惑为什么以下代码从标题中引发异常: <pre><code>class Scratch { public static void main(String[] args) { -
读取镶木地板文件时刷新数据帧的元数据
我正在尝试将实木复合地板文件作为数据帧读取,该数据帧将定期更新(路径为<code>/folder_name</code>。每 -
在Java Spark中尝试zipWithIndex时出错
我尝试使用<code>handleSubmit</code>在Spark中添加具有行号的列,如下所示: <pre><code>zipWithIndex</code></pre> -
如何将Spark的Decimal数据帧转换为具有相同精度的BigDecimal的数据集?
如何以给定的精度创建具有BigDecimal的spark数据集?请参见spark外壳中的以下示例。您将看到我可以使用所 -
在Spark DataFrame中将空数组替换为null
考虑如下数据框: <pre><code>+---+----+--------+----+ | c1| c2| c3| c4| +---+----+--------+----+ | x| n1| [m1]| -
Spark的数据集的limit函数创建一个只有1个分区的新数据集。为什么?
我刚刚意识到(经过一些经验测试),在<code>limit</code>上应用<code>Dataset</code>函数会产生一个只有一个分 -
使用Java对Spark数据集中的多列求和
我一直在使用 <code>ds = ds.withColumn("WA_POP", ds.col("WA_MALE").plus(ds.col("WA_FEMALE"))</code> -
在Sparksession读取期间创建数据集时,是否可以使用无效的模式来标识输入XML文件
我正在阅读XML文件列表以创建数据集,并希望识别具有无效架构的XML。 <pre><code>sparkSession.read().format( -
值collectAsMap不是org.apache.spark.sql.Dataset [(Any,Any)]的成员
我正在尝试在以下语句中使用<code>collectmap()</code>,但出现以下错误。 <pre><code>val Comic_Titles=comics_df.ma -
如何根据由user_id
我有如下的JSON原始数据 <pre><code>{"event" : "login","time" : "2019-11-20 00:14:46","us -
根据列的值在spark数据集中添加行号
我有一个示例<code>Dataset<Row></code>如下 <pre><code>+----+----+ |col1|col2| +----+----+ | a| a | | a| b | | b -
在Spark Java中采用两个数据集的并集的必要条件是什么
什么是必要条件,例如没有列,相同列或不同列 -
dataset.collectAsList()导致集群中的java.lang.ClassCastException
当我使用IntelliJ在Local中执行<code>List<Row> rows = (List<Row>) dataset.collectAsList();</code>时,我得到了结 -
将数据框转换为数据集有哪些缺点
我正在编写一个spark数据管道,并且我想通过使用数据集来强制类型化的数据模型,因此我可以将转换编 -
Spark无法爆炸列
对于给定的JSON响应: <pre><code>{ "id": "1575972348068_1649088229", "results": [ { -
在SPARK中,当数据帧仅使用一次时,缓存数据帧有何帮助
<blockquote> 我知道,如果要在多个地方使用同一数据框,那么缓存一个数据框会很有帮助。 </blockquo -
Scala中的数据集forEach循环抛出SparkException任务无法序列化
除了我正在使用Scala之外,我的问题确实与<a href="https://stackoverflow.com/questions/49289566/spark-task-not-serializable -
数据集过滤器工作异常
场景: 我已经通过指定加载模式读取了两个XML文件。 在架构中,标记之一是必需的。一种XML缺少 -
Spark:数据集-Java POJO类
<h2>我正在尝试构建Java-Spark应用程序,其想法如下:</h2> <ul> <li> 1)我有从数据库中获取的数据集,然后我 -
根据列列表过滤数据集
我正在尝试根据为空的列列表过滤数据集。 然后,我想收集整个列表,并从原始数据集中过滤掉所有这 -
Spark如何在本地模式下内部工作?
如何在本地模式下的Spark中正确配置内存,因为驱动程序和执行程序(都是相同的JVM)设置的工作方式与 -
Spark 2.4.4分析带有自定义分隔符的文本文件错误
我们最近将Apache Spark从2.4.0升级到2.4.4,并且最近在执行带有自定义分隔符的文本文件读取功能时遇到以 -
联合火花数据集循环
我正在尝试将数据集循环添加到空数据集。 但是结果数据集始终为空。 我试图通过仅执行代码中 -
Spark 2.1.x数据集API-了解groupByKey和reduceGroups行为
我正在玩Dataset API来减少一些元素,我注意到“奇怪”但也许是正常行为。 在<code>reduceGroups</code> -
在Spark数据集中添加ADT列?
我想创建一个包含ADT列的数据集。基于以下问题:<a href="https://stackoverflow.com/questions/41030073/encode-an-adt-sea -
无法使用Spark中的数据集对字节数组字段进行排序
我正在尝试对一个类中包含byte []字段的数据集进行排序。对数据集进行排序之后,我将它们以拼写形式 -
使用foldLeft和withColumn将SQL SQL替换为groupby / pivot / agg / collect_list,以提高性能
我有一个由三列组成的Spark DataFrame: <pre><code> id | col1 | col2 ----------------- x | p1 | a1 ---------------- -
如何通过具有数组列的DataFrame改善Spark SQL查询性能?
比方说,我有两个数据帧<code>head</code>和<code>df1</code>,它们有许多数组类型的列。一些列可以具有<code>df