-
从 PySpark 中的 AWS S3 读取时 InvalidAccessKeyId
我正在尝试使用在 Ubuntu 20.04、Spark 3.1.2、Hadoop 3.2、Java 11 上运行的 PySpark 读取和写入 AWS S3。 我将 -
将 Pandas 数据帧转换为 PySpark 数据帧会删除索引
我有一个名为 <code>data_clean</code> 的 Pandas 数据框。它看起来像这样: <a href="https://i.stack.imgur.com/EdAWU.png" -
Spark word2vec 不同的输入大小但相同的输出大小
Pyspark word2Veck 将不同长度的单词列表,代表不同长度的句子,作为训练的输入。 但输出是相同大小 -
spark sql 有非聚集索引功能吗?
请问spark sql是否像sql server一样支持非聚集索引?谢谢! -
如何使用 SSHOperator 在气流中停止对纱线的火花提交作业
我使用气流版本 2.1.0,这是我的代码: <pre><code>task1 = SSHOperator( ssh_hook=sshHook, task_id='test_spark, do_xco -
为什么即使分区较小,具有 Chained withColumn 窗口聚合的 Spark Stage 也会继续运行 OOM?
我在 spark Job 中有一个 Stage,它包含一长串窗口聚合,无论我添加多少个分区,这些聚合都会一直失败。 -
AWS EMR Spark 错误,显示`Failed to load class of driverClassName com.mysql.jdbc.Driver`
我目前正在尝试在 EMR 6.1.0 中添加一个进程,该进程将使用 Spark 将聚合数据存储在 mysql 中。 但是,当我 -
Apache Spark 何时以及如何创建驱动程序?
我试图了解与在集群和客户端模式下在 spark-submit 上创建驱动程序相关的事件序列 <strong>Spark-提交</ -
带有pyspark的kafka readStream无法连接
我正在处理 kafka 主题并尝试使用 pyspark 在我的本地机器上创建一个 readStream。 我已经通过 home-brew -
如何在 Spark-scala 中解码 HTML 实体?
我有一个火花代码可以从数据库中读取一些数据。 名为“title”的列(字符串类型)之一包含以下数据 -
MAPBENDER 安装失败
我已经尝试安装 Mapbender 好几天了,但最后还是收到了这条消息或另一条消息 <pre><code>http://localhost/map -
在执行程序上访问 SparkSession 会引发错误
我的代码流程如下所示。 <code>get_row_group_info(path)</code> 部分在执行程序上执行。我有一些逻辑来记录一 -
spark-submit 向工作节点添加包
如果我将 <code>spark-submit</code> 与 <code>--packages</code> 一起使用并提供一个 maven 包,该包会添加到工作节点 -
如何在 Databricks 上使用 Apache Spark/python 将字符串拆分为多列
尝试使用 python 在 Databricks 上将字符串列拆分为 4 列:A、B、C、D。 <pre><code># Load CSV file df = spark.read.fo -
在数组火花数据帧 2.4 的嵌套结构中提取多个元素
我正在读取镶木地板文件并尝试从数组结构的结构中提取元素。但是,当我使用 getItem() 时,空值返回空 -
为什么即使使用 unpersist 也不会触发卸载内存
我有一个带有嵌套 for 循环的 spark 作业。我使用嵌套 for 循环的原因是我有一个非常大的数据集,它被分 -
将 3 个表的结果尝试到单个数据帧
我试图从每个表中获取所有列,并通过循环迭代将其存储在单个数据帧中。 在下面的代码中,run_query 是