apache-spark

Spark SQL的联接策略

我知道比较加入策略是一个复杂的问题。但是在通常情况下，我可以断言<code>BroadcastHashJoin</code>

前端之家
2022-08-16 • 问答
Impala / Hive查询多个联接条件

我需要对来自tableA_index的结果进行分组，然后将其与tableB合并以获得以下结果。 <ul> <li> tableA_index

前端之家
2022-08-16 • 问答
spark-submit：java.lang.NoSuchMethodError：org.apache.spark.SparkContext $。$ lessinit $ greater $ default $ 6（）Lscala / collection / Map;

我正在Spark上运行一个简单的Scala示例。在这一行： <pre class="lang-scala prettyprint-override"><code>val sc = new

前端之家
2022-08-16 • 问答
Spark Streaming应用程序上的多个writestream

在我的Spark流应用程序中，我试图从Azure EventHub流化数据，然后根据该数据写入hdfs blob中的几个目录。基

前端之家
2022-08-16 • 问答
如何在Spark Scala中找到数据框的组合差异？

例如： <pre><code>+------+ |items | +------+ | 1| | 14| | 11| | 3| | 0| | 0,13| | 8| | 7| | 7,11| |

前端之家
2022-08-16 • 问答
Spark：读取表并按分区过滤

我试图了解Spark的评估。有一个表table_name，该表由partition_column分区。这是一个以实木复合地板格

前端之家
2022-08-16 • 问答
使用Scala从HBase读取数据时出错

我只是火花的初学者。我试图连接到名为mimic3的Hbase myDB表，该列族称为sepsiscategories，并且有很多列。

前端之家
2022-08-16 • 问答
如何在流式查询中使用MLlib模型（“字段“功能”不存在失败。”）？

我正在尝试使用保存的Mllib模型来预测实时流数据的情绪。我尝试了所有发现的建议，但仍然出现

前端之家
2022-08-16 • 问答
如何计算执行器内存，执行器数量，执行器核心数量和驱动程序内存，以使用Spark读取40GB的文件？

<strong>纱线群集配置：</strong> 8个节点每个节点8个核心每个节点8 GB RAM 每个节点1TB硬盘

前端之家
2022-08-16 • 问答
Pyspark中的动态window.partitionBy列

我创建了两个数据框。 <code>df_stg_raw</code>数据框正在保存重复记录。 <code>df_qualify</code>数据帧保持<code>me

前端之家
2022-08-16 • 问答
如何使用Spark结构化流配置Confluent的Schema Registry and Avro序列化程序？

我还没有找到任何文档或示例来说明如何将Schema Registry and Avro序列化程序的设置从Confluent传递到Spark结构

前端之家
2022-08-16 • 问答
scala-logging不会创建日志文件

我正在尝试使用scala-logging从Linux上运行的Scala / Spark项目进行日志，并通过spark-submit在Spark集群上启动。

前端之家
2022-08-16 • 问答
Dataset.show上的ClassCastException

我的模式： <pre><code> StructField[] fields = new StructField[] { DataTypes.createStructField("id", DataTypes.Long

前端之家
2022-08-16 • 问答
在kubernetes集群中使用spark_sklearn

我正在从事机器学习项目。我最初使用scikit-learn（sklearn）库。在模型优化过程中，我使用了sklearn的经典

前端之家
2022-08-16 • 问答
使用逗号分隔符将Spark DataFrame中的一列拆分为多列

我想使用Java Spark中的逗号分隔符从<code>Dataframe</code>的一列创建多列。我在<code>DataFrame</code>的一

前端之家
2022-08-16 • 问答
使用Sparklyr的xgboost函数时，ft_one_hot_endcoder或ft_one_hot_encoder_estimator？

我的sparklyr数据帧中有很多列（大约70列），在我使用sparklyr的xgboost_classifier函数构建xgboost模型之前，其

前端之家
2022-08-16 • 问答
在PySPARK中使用从其他所有列创建的值创建一个列作为JSON

我有一个如下数据框： <pre><code>+----------+----------+--------+ | FNAME| LNAME| AGE| +----------+----------+

前端之家
2022-08-16 • 问答
Databricks-> Snowflake：SQL编译错误：阶段：“ XYZ”不能是管道定义中的临时阶段

我尝试将Databricks的流具体化为Snowflake表： parsedStream .writeStream .outputMode（“ append”）

前端之家
2022-08-16 • 问答
可以在Spark的Cosmos DB Connector中使用Mongo Shell样式查询吗？

我正在使用Cosmos DB Connector for Spark。是否可以通过Cosmos DB连接器使用Mongo Shell“ JSON样式”查询而不是SQL

前端之家
2022-08-16 • 问答
如何使用pyspark读取嵌套的json

我的json文件如下所示 {“ numFound”：9710，“ start”：3000，“ interactions”：[{“ intID”：“ 13407682

前端之家
2022-08-16 • 问答
存储在AWS S3中的拼花地板文件是否可拆分？

<ul> <li>我知道实木复合地板文件如果存储在块存储中是可拆分的。例如存储在HDFS上</li> <li>当它们存储在诸

前端之家
2022-08-16 • 问答
可以使用其REST API以％的百分比在Spark中查看应用程序的进度

我正在独立Spark集群上运行Spark应用程序。如果我使用Spark REST API检查应用程序的状态，则会得到类似以

前端之家
2022-08-16 • 问答
在Spark中处理大量小数据批处理，并将它们写入HDFS

我目前有一个Hadoop集群设置，可通过Java / Springboot后端访问。后端使用Apache Spark从集群读取数据并进行分

前端之家
2022-08-16 • 问答
火花UDAF，用于在组级别并行处理数据帧，但在每个组中依次处理行

我们在<a href="https://stackoverflow.com/questions/58439080/spark-sql-how-to-achieve-parallel-processing-of-dataframe-at-group-level-b

前端之家
2022-08-16 • 问答
反序列化Avro Spark

我正在使用以下代码利用<code>dummy <- data.frame(categorical_1 = c("a", "b", "a", "a", "

前端之家
2022-08-16 • 问答
如何将Spark Dense Matrix转换为Spark Dataframe

我正在尝试在Scala Spark中实现一些代码，其中我有一个多类Logistic回归模型，并且该模型生成系数矩阵。

前端之家
2022-08-16 • 问答
仅将每行的非空列收集到数组中

困难在于，我试图尽可能避免使用UDF。我有一个数据集“ wordsDS”，其中包含许多空值： <pre>

前端之家
2022-08-16 • 问答
降低并行度会不会导致随机播放溢出？

考虑一个示例：我有一个包含5个节点的群集，每个节点具有64个核心，并具有244 GB内存。

前端之家
2022-08-16 • 问答
Zeppelin中导入和使用胖子罐时库兼容性问题

我们在EMR上运行了一个胖子罐，该胖子罐存储了我们所有的Spark作业，以及用于将数据集标准化读写到s3

前端之家
2022-08-16 • 问答
在spark-submit命令中传递回传配置文件路径的干净方法

我正在为我的spark应用程序使用logback。我遇到的问题是，当我通过智能j本地运行时，我的spark应用程序

前端之家
2022-08-16 • 问答