apache-spark

Spark：从站无法连接到主站

我正在尝试在我的组织网络中的2台计算机上设置独立的Spark集群。两者都是配置相同的ubuntu 16.04机器。</

前端之家
2022-08-15 • 问答
Spark比较两个数据帧

<ul> <li>列表项</li> </ul> 需要比较两个数据帧并创建第三个数据帧以产生差异。在比较数据帧时，需要遵

前端之家
2022-08-15 • 问答
AWS GlueContext未初始化

我不熟悉AWS和胶水服务，试图与pycharm一起使用，并且有一个python类从S3位置读取数据，效果很好。 python

前端之家
2022-08-15 • 问答
EMA函数在R数据帧上有效，但在Spark数据帧上失败-Sparklyr

我对R和Spark还是陌生的。我正在编写一个函数来计算一组数据的指数移动平均值。我正在使用sparklyr软

前端之家
2022-08-15 • 问答
Spark流，从套接字读取：java.lang.ClassCastException：java.lang.String无法强制转换为org.apache.spark.unsafe.types.UTF8String

我在Windows 10上尝试使用Spark Streaming（Spark 2.4.4）从TCPsocket源（到目前为止测试目的）中以<code>'\n'</

前端之家
2022-08-15 • 问答
其余端点sparkql（数字地图）

是否可以直接从其他端点执行sparkql查询？谢谢我喜欢直接从外部图形数据库（allegrograph）执行sparkql查

前端之家
2022-08-15 • 问答
不带汇总的Spark Dataframe数据透视

我有一堆json文档，它对应于数据库更改，类似于以下格式： <pre><code>{ "key": "abc", &

前端之家
2022-08-15 • 问答
如果未选择任何内容，是否在联接后推送dropDuplicates和select操作？

给予 <pre><code>[{someField=this_object_seems_to_be_ok}] </code></pre> 场景1 <pre><code> val a = List(1,2,3).toDF(

前端之家
2022-08-15 • 问答
无法正确按日期排序

不是按天排序，而是按月排序。我尝试过<code>str_to_date</code>，但在spark sql中没有，并且尝试在<code

前端之家
2022-08-15 • 问答
找到一列的min（）日期，然后将其与日期小于该日期的其他表联接

简而言之，我有两个表：（1）<code>pharmacy_claims</code>（列：<code>user_id</code>，<code>date_service</code>，

前端之家
2022-08-15 • 问答
读取AVRO数据时，火花作业会引发空指针异常

火花作业在读取数据时抛出空指针异常。我正在获取avro数据并将其加入另一个数据集，但出现此错误

前端之家
2022-08-15 • 问答
pyspark中是否可以计算唯一值

我有一个spark数据帧（12m x 132），我试图按列计算唯一值的数量，并删除只有1个唯一值的列。到

前端之家
2022-08-15 • 问答
如何处理JSON文档（来自MongoDB）并在结构化流中写入HBase？

我正在获取mongoDB文档，然后经过处理后，我想使用Bson.Document库将其存储到Hbase中将流媒体方法从S

前端之家
2022-08-15 • 问答
PySpark：从列中提取/收集第一个数组元素

我有一个看起来像的数据框 <pre><code> |-- alleleFrequencies: array (nullable = true) | |-- element: double (containsN

前端之家
2022-08-15 • 问答
使用保存的模型来转换另一个数据而无需再次拟合Spark

我正在Scala中使用Spark（核心和Mllib）版本2.2.0。我成功地用Logistic回归保存了CrossValidator模型。下

前端之家
2022-08-15 • 问答
为什么在Holden Karau的书《 Learning Spark》中将持久性当作动作来使用？

我正在阅读“学习火花”，并注意到这种代码： <pre><code>val result = input.map(x => x * x) result.persist(Stor

前端之家
2022-08-15 • 问答
写入Azure Cosmos，吞吐量RU

我们计划将10000个JSON文档写入Azure Cosmos DB（MongoDB），吞吐量单位是否重要，如果可以，我们是否可以增

前端之家
2022-08-15 • 问答
如何在Spark SQL中格式化日期？

我需要将给定的日期格式<code>2019-10-22 00:00:00</code>转换为以下日期格式：<code>2019-10-22T00:00:00.000Z</code>

前端之家
2022-08-15 • 问答
G.2X工作者类型序列化结果的总大小大于spark.driver.maxResultSize

我正在执行etl作业，试图转换大约40GB的数据并将其保存到S3存储桶中。我使用的是G.2X工作程序类型，因

前端之家
2022-08-15 • 问答
Spart DF：将数组拆分为多行

我使用mongodata创建了spark数据框（在使用python笔记本的数据块中） <a href="https://i.stack.imgur.com/6FVKF.

前端之家
2022-08-15 • 问答
如何计算scala / spark中的对数丢失指标？

我已经训练了一个二进制分类器（<code>XGBoostClassifier</code>）模型，并且在结果数据框中有两列：<code>PREDI

前端之家
2022-08-15 • 问答
如何实现Java插件系统以实现快速开发和集成部署？

在典型的Spark开发周期中，我可以在IDE内部编写普通的JVM程序（Spark驱动程序）。可以在不将其部署到Spar

前端之家
2022-08-15 • 问答
我如何在齐柏林飞艇集群上使用Spark Master？

我有Spark Master和Zeppelin Docker容器 <a href="https://i.stack.imgur.com/AKs31.png" rel="nofollow noreferrer"><img src="https://i.st

前端之家
2022-08-15 • 问答
火花分割功能：

我正在尝试以下列表的拆分功能： <img src="https://i.stack.imgur.com/vw773.png" alt="click for the image having the

前端之家
2022-08-15 • 问答
将字符串转换为日期Spark SQL

我有一个涉及广泛的格式，似乎不想正确转换。它始终显示为null。我正在使用SimpleDateFormat格式进行尝试

前端之家
2022-08-15 • 问答
如何使用Scala读取列族的所有数据

我是Scala和hbase的初学者。我的目标是从hbase读取特定列族中的所有数据，以便为机器学习的未来用途做

前端之家
2022-08-15 • 问答
如何在结构化流式处理的pyspark中使用use foreach运算符（“ DataStreamWriter”对象失败，没有属性“ foreach”）？

我在pyspark 2.3.4中使用结构化流。我正尝试使用<code>foreach</code>运算符，如下所示： <pre><code>que

前端之家
2022-08-15 • 问答
无法访问Spark服务器

我从这里得到克隆 <a href="https://github.com/big-data-europe/docker-spark" rel="nofollow noreferrer">https://github.com/big-data-

前端之家
2022-08-15 • 问答
Apache Spark如何将列表/数组中的新列追加到Spark数据框-当数据框具有多个列时

我如何对df中的所有列都具有相同的结果，如果是多列df。例如：df中的所有列都附加有row2。 <pre><code

前端之家
2022-08-15 • 问答
Spark执行程序，任务和分区

随着我不断阅读有关Spark架构和调度的在线资源，我开始变得更加困惑。一种资源说：<a href="https://blog.cl

前端之家
2022-08-15 • 问答