apache-spark

在Docker Swarm上部署Spark和HDFS无法启用数据本地性

我正在尝试使用Docker Swarm作为堆栈部署在小型集群上设置Spark + HDFS部署。我可以正常使用它，但是遇到

前端之家
2022-08-15 • 问答
动态地将spark数据帧转换为元组（String，_ <：Product）

在使用Spark时遇到了一个特殊的问题，我不太确定会发生什么，如果有人可以提供帮助，那就太好了。我

前端之家
2022-08-15 • 问答
Pyspark RDD的平均间隔

我正在尝试使用PySpark查找相邻元组列表之间的平均差。例如，如果我有这样的RDD <pre><code>vals

前端之家
2022-08-15 • 问答
RDD操作对pyspark中的值进行排序

我的文件格式如下， <pre><code>0, Alpha,-3.9, 4, 2001-02-01, 5, 20 0, Beta,-3.8, 3, 2002-02-01, 6, 21 1, Gamma,-3.7, 8, 2003

前端之家
2022-08-15 • 问答
针对Apache Spark使用Neo4j连接器的代码不适用于apache-submit

我正在使用<a href="https://github.com/neo4j-contrib/neo4j-spark-connector" rel="nofollow noreferrer">Neo4j connector for Apache Spar

前端之家
2022-08-15 • 问答
pyspark中等效的行ID是什么？

在传统的DWH流程中，我们根据传统RDBMS中的rowid查找重复项并跟踪重复记录。例如 <pre><code>sele

前端之家
2022-08-15 • 问答
无法通过mapPartitions（）将数据集的行元素存储在变量中

我试图创建一个Spark数据集，然后使用mapPartitions尝试访问其每个元素并将它们存储在变量中。使用下面

前端之家
2022-08-15 • 问答
将.csv加载到由Windows和Linux组成的Spark集群中

我正在Windows和Linux服务器的群集上运行Spark 2.4.4。一切开始，似乎连接正常。我大约有10 TB的csv数

前端之家
2022-08-15 • 问答
如何将csv转换为RDD并在pyspark中使用RDD进行检测？

我目前正在研究心脏病检测，并且希望使用spark来处理大数据，因为这是我工作解决方案的一部分。但是

前端之家
2022-08-15 • 问答
Spark SQL-重新分区后按分组

我想基于指定的预定义类别将源中的所有项目分组。每个类别的项目数可能约为数百万。 groupBy可以帮助

前端之家
2022-08-15 • 问答
具有自连接功能的Spark sql笛卡尔积

我有一个用例，我需要在给定类别中的每个项目上运行自定义算法，并且对于每个项目，从算法中找到

前端之家
2022-08-15 • 问答
在Spark中映射时写入数据集字段

我有一个要映射的数据集。计算的值取决于上一行的值。所以我需要保存。但是我无法做到的是将计算

前端之家
2022-08-15 • 问答
Spark向Hive写入错误的table_name作为分区规范，并抛出“分区规范包含非分区列”错误

我的Hive表是用<code>orange = { "1":0, "2":0, "3":0, "4":0, "5":0, "6":0, "7"

前端之家
2022-08-15 • 问答
rdd的火花缩放中的ReduceByKey不起作用

我试图总结所有基于StudentId的分数。我用过reduceByKey。但这引发了错误。有人可以帮我解决此问题。

前端之家
2022-08-15 • 问答
在编译时验证Scala案例类

我在Scala 2.11应用程序中具有案例类，该案例类具有一种依赖于案例类字段名称的方法，如下所示： <

前端之家
2022-08-15 • 问答
Spark如何确定执行次数

我是Spark的新手，当我提交Spark程序时，它不会根据分区数和阶段数根据转换和任务数创建任何阶段，我

前端之家
2022-08-15 • 问答
接受类型为“数组-StructType或“ null”的列的UDF的输入类型应该是什么？

我的DataFrame的架构如下： <pre class="lang-scala prettyprint-override"><code>root |-- col1: string (nullable = true) |-- c

前端之家
2022-08-15 • 问答
在Hive上使用Parquet增加写并行性

tl; dr-我正在Hive上将大量数据写入新的Parquet格式表中，但是该作业使用的reducer比指定的要少得多，因此

前端之家
2022-08-15 • 问答
错误PythonUDFRunner：Python worker意外退出（崩溃）

我正在运行一个调用udfs的PySpark作业。我知道udfs的内存不好，并且由于序列化/反序列化而变慢，但是由

前端之家
2022-08-15 • 问答
如何使用Spark的reduceByKey对列表中的整数求和？

我有一个（键，值），其值等于列表中的整数列表。我的意思是： <pre><code>(Key, Value) = ("aaa", [

前端之家
2022-08-15 • 问答
SparkSession.conf和SparkConf有什么区别？

我了解您是从一个SparkConf对象创建一个SparkSession的，但这是否意味着SparkSession.conf与SparkConf（）相同？

前端之家
2022-08-15 • 问答
将日志重定向到Scala中的文件

我是Scala的新手，我正在努力寻找如何将日志重定向到Scala中的文件的方法。这是Python中的一项简单任务

前端之家
2022-08-15 • 问答
无法运行JAR-使用Java的Spark Twitter流

我在Ubuntu中以独立模式运行Spark 2.4.3。我正在使用Maven创建JAR文件。以下是我尝试运行的旨在从Twitter流式

前端之家
2022-08-15 • 问答
根据字符串长度在scala中拆分字符串

我有一个包含两列的表，一个是id，另一个是值。我的值列包含1488个字符。我必须将此列拆分为每行12个

前端之家
2022-08-15 • 问答
无法从Databrick的Connect Apache Spark中读取Azure Blob存储挂载中的文件

我在Azure上配置了数据块连接以在Azure云上运行我的Spark程序。对于空运行，我测试了一个单词计数程序

前端之家
2022-08-15 • 问答
如何通过SPARK中的SSH通过工作节点连接SQL Server

我在生产中有5个运行中的火花 <pre><code>Node1: Worker Node2: Worker Node3: Worker Node4: Worker Node5: Master </code></p

前端之家
2022-08-15 • 问答
RDD动作（例如first（），head（），isEmpty（）..）是否会评估整个RDD？还是只是一部分？

我有一个RDD <code>groupResultMap</code>，并在下面编写代码。 <pre><code>if (groupResultMap.isEmpty) Map[String, Any]()

前端之家
2022-08-15 • 问答
Spark内部查询导致大量分区

我已经看到Apache中的以下行为引发了几次。无法解释这种行为的构成？因此伸出手来激发广泛的社区。</

前端之家
2022-08-15 • 问答
Scala scala.xml.XML.load（is：InputStream）正在关闭ZipInputStream

我正在使用scala提取内存中的zip文件，如下所示： <pre><code>val rdd = sc.binaryFiles("/path") .fl

前端之家
2022-08-15 • 问答
如何使用Spark Streaming识别Azure EventHub和HDFS blob的数据复制滞后

我当前正在使用Spark Streaming将近实时数据从Azure EventHub流式传输到HDFS Blob位置，此流式作业正在运行24/7

前端之家
2022-08-15 • 问答