-
为什么在调用库(rdd)时出现错误
我已经安装了rdd软件包,在调用<code>library(rdd)</code>时收到错误消息: <blockquote> 错误:找不到'A -
Apache Spark RDD和多级列头文件
在python中,Apache Spark RDD是否支持多层列?这是我想要做的: 1)我有一个带有多级列标题(前2行 -
如何使用Apache Spark和lxml解析,过滤和聚合数据?
我已经使用<code>etree.fromstring(x)</code>从<a href="https://lxml.de/2.2/index.html" rel="nofollow noreferrer">lxml</a>创建了一 -
createOrReplaceTempView不是org.apache.spark.rdd.RDD的成员
我正在使用<strong> hadoop 2.7.2,hbase 1.4.9,spark 2.2.0,scala 2.11.8和Java 1.8 </strong>。 我在没有任何错误的情况 -
如何从顶点输入文件创建VertexRDD?
我有一个这样的顶点输入文件: <pre><code>(1L,(0.5,0.5)) (2L,(0.25,0.0625)) (3L,(0.125,0.125)) (4L,(0.0625,0.0625)) (5L, -
NoClassDefFoundError com / yammer指标核心量规
我首先录制了此命令: <pre><code>window</code></pre> 然后我录制以下命令: <pre><code>sepsiscategories.cr -
pyspark rdd在一个rdd中合并多个json文件数据
我正在尝试将两个文件数据合并到一个rdd中。可以说我有两个文件<code>file1.txt</code>是大json格式的文件, -
将RDD转换为DataFrame时java.lang.StackOverFlowError
尝试为大型RDD文档计算tf-idf分数,并且每当我尝试将其转换为数据帧时,它总是崩溃。我得到的最初错 -
将RDD列转换为浮动
我刚刚从<a href="http://files.grouplens.org/datasets/movielens/ml-latest-small.zip" rel="nofollow noreferrer">http://files.grouplens. -
pyspark:仅基于rdd的操作
我正在尝试仅使用基于rdd的操作。我有一个与此相似的文件; <pre><code>0, Alpha,-3.9, 4, 2001-02-01, 5, 20 0, -
Pyspark RDD的平均间隔
我正在尝试使用PySpark查找相邻元组列表之间的平均差。 例如,如果我有这样的RDD <pre><code>vals -
RDD操作对pyspark中的值进行排序
我的文件格式如下, <pre><code>0, Alpha,-3.9, 4, 2001-02-01, 5, 20 0, Beta,-3.8, 3, 2002-02-01, 6, 21 1, Gamma,-3.7, 8, 2003 -
如何将csv转换为RDD并在pyspark中使用RDD进行检测?
我目前正在研究心脏病检测,并且希望使用spark来处理大数据,因为这是我工作解决方案的一部分。但是 -
rdd的火花缩放中的ReduceByKey不起作用
我试图总结所有基于StudentId的分数。我用过reduceByKey。但这引发了错误。 有人可以帮我解决此问题。 -
pyspark:时间步的rdd操作
我的文件格式如下, <pre><code>0, Alpha,-3.9, 4, 2001-02-01 08:00:00, 5, 20 0, Beta, -3.8, 3, 2001-02-01 08:15:00, 6, 21 1, -
RDD动作(例如first(),head(),isEmpty()..)是否会评估整个RDD?还是只是一部分?
我有一个RDD <code>groupResultMap</code>,并在下面编写代码。 <pre><code>if (groupResultMap.isEmpty) Map[String, Any]() -
在Java Spark中尝试zipWithIndex时出错
我尝试使用<code>handleSubmit</code>在Spark中添加具有行号的列,如下所示: <pre><code>zipWithIndex</code></pre> -
使用rdd查找元组值出现的平均时间
我的rdd如下, <pre><code>myrdd = sc.parallelize([("A", 2), ("B", 10), ("C", 4), ("A", 8), (" -
如何在PySpark的RDD中找到每个唯一密钥的最短日期?
我有一个格式为[(ID,Date),(ID,Date)...]的元组列表,日期格式为datetime。作为RDD的示例,我正在使 -
如何将RDD [Map [String,Any]]转换为数据框?
我正在使用<strong> <em> RDD [Map [String,Any]] </em> </strong>,并且我正在尝试将其转换为数据框。我没有可以 -
PySpark-如何读取二进制文件并添加源文件名
我需要从HDFS文件夹中读取二进制文件,并将其转换为Pyspark中的DataFrame。 我希望DataFrame列之一将是 -
将python函数传递给pyspark中的Scala RDD
我有一个Scala库,(简单地说)它接收一个函数,将其应用于RDD并返回另一个RDD <pre><code>def runFunction -
如何检查RDD
火花2.4.0 <hr /> <pre><code>rdd = rdd.cache() print(rdd.getStorageLevel()) </code></pre> <blockquote> 内存序列化1x -
缓存时,Spark DataFrames / Datasets是否共享数据?
假设我做这样的事情: <pre><code>def readDataset: Dataset[Row] = ??? val ds1 = readDataset.cache(); val ds2 = ds1.withCol -
如何将索引值附加到从复杂类型的Spark RDD生成的嵌套JSON中?
我有一个复杂的RDD变量,称为<strong> receipts </strong>,类型为RDD [Array [Test]] <pre><code>case class Test( he -
Spark,从每个分区获取单个值的有效方法吗?累加器?
在我的spark应用程序中,每个分区都生成一个对象,该对象很小,并且包含该分区中数据的摘要。现在, -
将scala数据帧转换为rdd [(Long,Vector)]
我有一个包含两列<code>id</code>和一个<code>tfidfvector(org.apache.spark.mllib.linlag.Vector)</code>的数据框。 我 -
分而治之的火花
我正在学习Spark,并尝试处理一些巨大的数据集。我不明白为什么使用以下策略(伪)看不到阶段完成时 -
如何明智地在Spark数据框中访问元素列
我有一个文本文件,其中包含以下数据<br/> 3 5 <br/> 10 20 30 40 50 <br/> 0 0 0 2 5 <br/> 5 10 10 10 10 <br/> <strong>问 -
pyspark中基于rdd的操作中键值的最大值
我对基于rdd的操作不熟悉。我正在尝试了解键值的最大值。我有这样的rdd: <pre><code>RDD = sc.parallelize(