-
Spark:从站无法连接到主站
我正在尝试在我的组织网络中的2台计算机上设置独立的Spark集群。两者都是配置相同的ubuntu 16.04机器。</ -
Spark比较两个数据帧
<ul> <li>列表项</li> </ul> 需要比较两个数据帧并创建第三个数据帧以产生差异。 在比较数据帧时,需要遵 -
AWS GlueContext未初始化
我不熟悉AWS和胶水服务,试图与pycharm一起使用,并且有一个python类从S3位置读取数据,效果很好。 python -
EMA函数在R数据帧上有效,但在Spark数据帧上失败-Sparklyr
我对R和Spark还是陌生的。 我正在编写一个函数来计算一组数据的指数移动平均值。我正在使用sparklyr软 -
Spark流,从套接字读取:java.lang.ClassCastException:java.lang.String无法强制转换为org.apache.spark.unsafe.types.UTF8String
我在Windows 10上尝试使用Spark Streaming(Spark 2.4.4)从TCPsocket源(到目前为止测试目的)中以<code>'\n'</ -
其余端点sparkql(数字地图)
是否可以直接从其他端点执行sparkql查询?谢谢 我喜欢直接从外部图形数据库(allegrograph)执行sparkql查 -
不带汇总的Spark Dataframe数据透视
我有一堆json文档,它对应于数据库更改,类似于以下格式: <pre><code>{ "key": "abc", & -
如果未选择任何内容,是否在联接后推送dropDuplicates和select操作?
给予 <pre><code>[{someField=this_object_seems_to_be_ok}] </code></pre> 场景1 <pre><code> val a = List(1,2,3).toDF( -
无法正确按日期排序
不是按天排序,而是按月排序。 我尝试过<code>str_to_date</code>,但在spark sql中没有,并且尝试在<code -
找到一列的min()日期,然后将其与日期小于该日期的其他表联接
简而言之,我有两个表: (1)<code>pharmacy_claims</code>(列:<code>user_id</code>,<code>date_service</code>, -
读取AVRO数据时,火花作业会引发空指针异常
火花作业在读取数据时抛出空指针异常。我正在获取avro数据并将其加入另一个数据集,但出现此错误 -
pyspark中是否可以计算唯一值
我有一个spark数据帧(12m x 132),我试图按列计算唯一值的数量,并删除只有1个唯一值的列。 到 -
如何处理JSON文档(来自MongoDB)并在结构化流中写入HBase?
我正在获取mongoDB文档,然后经过处理后,我想使用Bson.Document库将其存储到Hbase中 将流媒体方法从S -
PySpark:从列中提取/收集第一个数组元素
我有一个看起来像的数据框 <pre><code> |-- alleleFrequencies: array (nullable = true) | |-- element: double (containsN -
使用保存的模型来转换另一个数据而无需再次拟合Spark
我正在Scala中使用Spark(核心和Mllib)版本2.2.0。 我成功地用Logistic回归保存了CrossValidator模型。下 -
为什么在Holden Karau的书《 Learning Spark》中将持久性当作动作来使用?
我正在阅读“学习火花”,并注意到这种代码: <pre><code>val result = input.map(x => x * x) result.persist(Stor -
写入Azure Cosmos,吞吐量RU
我们计划将10000个JSON文档写入Azure Cosmos DB(MongoDB),吞吐量单位是否重要,如果可以,我们是否可以增 -
如何在Spark SQL中格式化日期?
我需要将给定的日期格式<code>2019-10-22 00:00:00</code>转换为以下日期格式:<code>2019-10-22T00:00:00.000Z</code> -
G.2X工作者类型序列化结果的总大小大于spark.driver.maxResultSize
我正在执行etl作业,试图转换大约40GB的数据并将其保存到S3存储桶中。我使用的是G.2X工作程序类型,因 -
Spart DF:将数组拆分为多行
我使用mongodata创建了spark数据框(在使用python笔记本的数据块中) <a href="https://i.stack.imgur.com/6FVKF. -
如何计算scala / spark中的对数丢失指标?
我已经训练了一个二进制分类器(<code>XGBoostClassifier</code>)模型,并且在结果数据框中有两列:<code>PREDI -
如何实现Java插件系统以实现快速开发和集成部署?
在典型的Spark开发周期中,我可以在IDE内部编写普通的JVM程序(Spark驱动程序)。可以在不将其部署到Spar -
我如何在齐柏林飞艇集群上使用Spark Master?
我有Spark Master和Zeppelin Docker容器 <a href="https://i.stack.imgur.com/AKs31.png" rel="nofollow noreferrer"><img src="https://i.st -
火花分割功能:
我正在尝试以下列表的拆分功能: <img src="https://i.stack.imgur.com/vw773.png" alt="click for the image having the -
将字符串转换为日期Spark SQL
我有一个涉及广泛的格式,似乎不想正确转换。它始终显示为null。我正在使用SimpleDateFormat格式进行尝试 -
如何使用Scala读取列族的所有数据
我是Scala和hbase的初学者。我的目标是从hbase读取特定列族中的所有数据,以便为机器学习的未来用途做 -
如何在结构化流式处理的pyspark中使用use foreach运算符(“ DataStreamWriter”对象失败,没有属性“ foreach”)?
我在pyspark 2.3.4中使用结构化流。 我正尝试使用<code>foreach</code>运算符,如下所示: <pre><code>que -
无法访问Spark服务器
我从这里得到克隆 <a href="https://github.com/big-data-europe/docker-spark" rel="nofollow noreferrer">https://github.com/big-data- -
Apache Spark如何将列表/数组中的新列追加到Spark数据框-当数据框具有多个列时
我如何对df中的所有列都具有相同的结果,如果是多列df。例如:df中的所有列都附加有row2。 <pre><code -
Spark执行程序,任务和分区
随着我不断阅读有关Spark架构和调度的在线资源,我开始变得更加困惑。一种资源说:<a href="https://blog.cl