rdd - 前端之家

为什么在调用库（rdd）时出现错误

我已经安装了rdd软件包，在调用<code>library(rdd)</code>时收到错误消息： <blockquote> 错误：找不到'A

前端之家
2022-08-16 • 问答
Apache Spark RDD和多级列头文件

在python中，Apache Spark RDD是否支持多层列？这是我想要做的： 1）我有一个带有多级列标题（前2行

前端之家
2022-08-16 • 问答
如何使用Apache Spark和lxml解析，过滤和聚合数据？

我已经使用<code>etree.fromstring(x)</code>从<a href="https://lxml.de/2.2/index.html" rel="nofollow noreferrer">lxml</a>创建了一

前端之家
2022-08-16 • 问答
createOrReplaceTempView不是org.apache.spark.rdd.RDD的成员

我正在使用 hadoop 2.7.2，hbase 1.4.9，spark 2.2.0，scala 2.11.8和Java 1.8 。我在没有任何错误的情况

前端之家
2022-08-16 • 问答
如何从顶点输入文件创建VertexRDD？

我有一个这样的顶点输入文件： <pre><code>(1L,(0.5,0.5)) (2L,(0.25,0.0625)) (3L,(0.125,0.125)) (4L,(0.0625,0.0625)) (5L,

前端之家
2022-08-16 • 问答
NoClassDefFoundError com / yammer指标核心量规

我首先录制了此命令： <pre><code>window</code></pre> 然后我录制以下命令： <pre><code>sepsiscategories.cr

前端之家
2022-08-16 • 问答
pyspark rdd在一个rdd中合并多个json文件数据

我正在尝试将两个文件数据合并到一个rdd中。可以说我有两个文件<code>file1.txt</code>是大json格式的文件，

前端之家
2022-08-16 • 问答
将RDD转换为DataFrame时java.lang.StackOverFlowError

尝试为大型RDD文档计算tf-idf分数，并且每当我尝试将其转换为数据帧时，它总是崩溃。我得到的最初错

前端之家
2022-08-16 • 问答
将RDD列转换为浮动

我刚刚从<a href="http://files.grouplens.org/datasets/movielens/ml-latest-small.zip" rel="nofollow noreferrer">http://files.grouplens.

前端之家
2022-08-16 • 问答
pyspark：仅基于rdd的操作

我正在尝试仅使用基于rdd的操作。我有一个与此相似的文件； <pre><code>0, Alpha,-3.9, 4, 2001-02-01, 5, 20 0,

前端之家
2022-08-15 • 问答
Pyspark RDD的平均间隔

我正在尝试使用PySpark查找相邻元组列表之间的平均差。例如，如果我有这样的RDD <pre><code>vals

前端之家
2022-08-15 • 问答
RDD操作对pyspark中的值进行排序

我的文件格式如下， <pre><code>0, Alpha,-3.9, 4, 2001-02-01, 5, 20 0, Beta,-3.8, 3, 2002-02-01, 6, 21 1, Gamma,-3.7, 8, 2003

前端之家
2022-08-15 • 问答
如何将csv转换为RDD并在pyspark中使用RDD进行检测？

我目前正在研究心脏病检测，并且希望使用spark来处理大数据，因为这是我工作解决方案的一部分。但是

前端之家
2022-08-15 • 问答
rdd的火花缩放中的ReduceByKey不起作用

我试图总结所有基于StudentId的分数。我用过reduceByKey。但这引发了错误。有人可以帮我解决此问题。

前端之家
2022-08-15 • 问答
pyspark：时间步的rdd操作

我的文件格式如下， <pre><code>0, Alpha,-3.9, 4, 2001-02-01 08:00:00, 5, 20 0, Beta, -3.8, 3, 2001-02-01 08:15:00, 6, 21 1,

前端之家
2022-08-15 • 问答
RDD动作（例如first（），head（），isEmpty（）..）是否会评估整个RDD？还是只是一部分？

我有一个RDD <code>groupResultMap</code>，并在下面编写代码。 <pre><code>if (groupResultMap.isEmpty) Map[String, Any]()

前端之家
2022-08-15 • 问答
在Java Spark中尝试zipWithIndex时出错

我尝试使用<code>handleSubmit</code>在Spark中添加具有行号的列，如下所示： <pre><code>zipWithIndex</code></pre>

前端之家
2022-08-15 • 问答
使用rdd查找元组值出现的平均时间

我的rdd如下， <pre><code>myrdd = sc.parallelize([("A", 2), ("B", 10), ("C", 4), ("A", 8), (&#34

前端之家
2022-08-15 • 问答
如何在PySpark的RDD中找到每个唯一密钥的最短日期？

我有一个格式为[（ID，Date），（ID，Date）...]的元组列表，日期格式为datetime。作为RDD的示例，我正在使

前端之家
2022-08-15 • 问答
如何将RDD [Map [String，Any]]转换为数据框？

我正在使用 RDD [Map [String，Any]] ，并且我正在尝试将其转换为数据框。我没有可以

前端之家
2022-08-15 • 问答
PySpark-如何读取二进制文件并添加源文件名

我需要从HDFS文件夹中读取二进制文件，并将其转换为Pyspark中的DataFrame。我希望DataFrame列之一将是

前端之家
2022-08-14 • 问答
将python函数传递给pyspark中的Scala RDD

我有一个Scala库，（简单地说）它接收一个函数，将其应用于RDD并返回另一个RDD <pre><code>def runFunction

前端之家
2022-08-14 • 问答
如何检查RDD

火花2.4.0 <hr /> <pre><code>rdd = rdd.cache() print(rdd.getStorageLevel()) </code></pre> <blockquote> 内存序列化1x

前端之家
2022-08-14 • 问答
缓存时，Spark DataFrames / Datasets是否共享数据？

假设我做这样的事情： <pre><code>def readDataset: Dataset[Row] = ??? val ds1 = readDataset.cache(); val ds2 = ds1.withCol

前端之家
2022-08-14 • 问答
如何将索引值附加到从复杂类型的Spark RDD生成的嵌套JSON中？

我有一个复杂的RDD变量，称为 receipts ，类型为RDD [Array [Test]] <pre><code>case class Test( he

前端之家
2022-08-14 • 问答
Spark，从每个分区获取单个值的有效方法吗？累加器？

在我的spark应用程序中，每个分区都生成一个对象，该对象很小，并且包含该分区中数据的摘要。现在，

前端之家
2022-08-14 • 问答
将scala数据帧转换为rdd [（Long，Vector）]

我有一个包含两列<code>id</code>和一个<code>tfidfvector(org.apache.spark.mllib.linlag.Vector)</code>的数据框。我

前端之家
2022-08-14 • 问答
分而治之的火花

我正在学习Spark，并尝试处理一些巨大的数据集。我不明白为什么使用以下策略（伪）看不到阶段完成时

前端之家
2022-08-14 • 问答
如何明智地在Spark数据框中访问元素列

我有一个文本文件，其中包含以下数据 3 5 10 20 30 40 50 0 0 0 2 5 5 10 10 10 10 问

前端之家
2022-08-14 • 问答
pyspark中基于rdd的操作中键值的最大值

我对基于rdd的操作不熟悉。我正在尝试了解键值的最大值。我有这样的rdd： <pre><code>RDD = sc.parallelize(

前端之家
2022-08-14 • 问答

首页

下一页
末页