-
在Docker Swarm上部署Spark和HDFS无法启用数据本地性
我正在尝试使用Docker Swarm作为堆栈部署在小型集群上设置Spark + HDFS部署。我可以正常使用它,但是遇到 -
动态地将spark数据帧转换为元组(String,_ <:Product)
在使用Spark时遇到了一个特殊的问题,我不太确定会发生什么,如果有人可以提供帮助,那就太好了。我 -
Pyspark RDD的平均间隔
我正在尝试使用PySpark查找相邻元组列表之间的平均差。 例如,如果我有这样的RDD <pre><code>vals -
RDD操作对pyspark中的值进行排序
我的文件格式如下, <pre><code>0, Alpha,-3.9, 4, 2001-02-01, 5, 20 0, Beta,-3.8, 3, 2002-02-01, 6, 21 1, Gamma,-3.7, 8, 2003 -
针对Apache Spark使用Neo4j连接器的代码不适用于apache-submit
我正在使用<a href="https://github.com/neo4j-contrib/neo4j-spark-connector" rel="nofollow noreferrer">Neo4j connector for Apache Spar -
pyspark中等效的行ID是什么?
在传统的DWH流程中,我们根据传统RDBMS中的rowid查找重复项并跟踪重复记录。 例如 <pre><code>sele -
无法通过mapPartitions()将数据集的行元素存储在变量中
我试图创建一个Spark数据集,然后使用mapPartitions尝试访问其每个元素并将它们存储在变量中。使用下面 -
将.csv加载到由Windows和Linux组成的Spark集群中
我正在Windows和Linux服务器的群集上运行Spark 2.4.4。一切开始,似乎连接正常。 我大约有10 TB的csv数 -
如何将csv转换为RDD并在pyspark中使用RDD进行检测?
我目前正在研究心脏病检测,并且希望使用spark来处理大数据,因为这是我工作解决方案的一部分。但是 -
Spark SQL-重新分区后按分组
我想基于指定的预定义类别将源中的所有项目分组。每个类别的项目数可能约为数百万。 groupBy可以帮助 -
具有自连接功能的Spark sql笛卡尔积
我有一个用例,我需要在给定类别中的每个项目上运行自定义算法,并且对于每个项目,从算法中找到 -
在Spark中映射时写入数据集字段
我有一个要映射的数据集。计算的值取决于上一行的值。所以我需要保存。但是我无法做到的是将计算 -
Spark向Hive写入错误的table_name作为分区规范,并抛出“分区规范包含非分区列”错误
我的Hive表是用<code>orange = { "1":0, "2":0, "3":0, "4":0, "5":0, "6":0, "7" -
rdd的火花缩放中的ReduceByKey不起作用
我试图总结所有基于StudentId的分数。我用过reduceByKey。但这引发了错误。 有人可以帮我解决此问题。 -
在编译时验证Scala案例类
我在Scala 2.11应用程序中具有案例类,该案例类具有一种依赖于案例类字段名称的方法,如下所示: < -
Spark如何确定执行次数
我是Spark的新手,当我提交Spark程序时,它不会根据分区数和阶段数根据转换和任务数创建任何阶段,我 -
接受类型为“数组-StructType或“ null”的列的UDF的输入类型应该是什么?
我的DataFrame的架构如下: <pre class="lang-scala prettyprint-override"><code>root |-- col1: string (nullable = true) |-- c -
在Hive上使用Parquet增加写并行性
tl; dr-我正在Hive上将大量数据写入新的Parquet格式表中,但是该作业使用的reducer比指定的要少得多,因此 -
错误PythonUDFRunner:Python worker意外退出(崩溃)
我正在运行一个调用udfs的PySpark作业。我知道udfs的内存不好,并且由于序列化/反序列化而变慢,但是由 -
如何使用Spark的reduceByKey对列表中的整数求和?
我有一个(键,值),其值等于列表中的整数列表。我的意思是: <pre><code>(Key, Value) = ("aaa", [ -
SparkSession.conf和SparkConf有什么区别?
我了解您是从一个SparkConf对象创建一个SparkSession的,但这是否意味着SparkSession.conf与SparkConf()相同? -
将日志重定向到Scala中的文件
我是Scala的新手,我正在努力寻找如何将日志重定向到Scala中的文件的方法。这是Python中的一项简单任务 -
无法运行JAR-使用Java的Spark Twitter流
我在Ubuntu中以独立模式运行Spark 2.4.3。我正在使用Maven创建JAR文件。以下是我尝试运行的旨在从Twitter流式 -
根据字符串长度在scala中拆分字符串
我有一个包含两列的表,一个是id,另一个是值。我的值列包含1488个字符。我必须将此列拆分为每行12个 -
无法从Databrick的Connect Apache Spark中读取Azure Blob存储挂载中的文件
我在Azure上配置了数据块连接以在Azure云上运行我的Spark程序。对于空运行,我测试了一个单词计数程序 -
如何通过SPARK中的SSH通过工作节点连接SQL Server
我在生产中有5个运行中的火花 <pre><code>Node1: Worker Node2: Worker Node3: Worker Node4: Worker Node5: Master </code></p -
RDD动作(例如first(),head(),isEmpty()..)是否会评估整个RDD?还是只是一部分?
我有一个RDD <code>groupResultMap</code>,并在下面编写代码。 <pre><code>if (groupResultMap.isEmpty) Map[String, Any]() -
Spark内部查询导致大量分区
我已经看到Apache中的以下行为引发了几次。无法解释这种行为的构成?因此伸出手来激发广泛的社区。</ -
Scala scala.xml.XML.load(is:InputStream)正在关闭ZipInputStream
我正在使用scala提取内存中的zip文件,如下所示: <pre><code>val rdd = sc.binaryFiles("/path") .fl -
如何使用Spark Streaming识别Azure EventHub和HDFS blob的数据复制滞后
我当前正在使用Spark Streaming将近实时数据从Azure EventHub流式传输到HDFS Blob位置,此流式作业正在运行24/7