-
Spark SQL的联接策略
我知道比较加入策略是一个复杂的问题。 但是在通常情况下,我可以断言<code>BroadcastHashJoin</code> -
Impala / Hive查询多个联接条件
我需要对来自tableA_index的结果进行分组,然后将其与tableB合并以获得以下结果。 <ul> <li> tableA_index -
spark-submit:java.lang.NoSuchMethodError:org.apache.spark.SparkContext $。$ lessinit $ greater $ default $ 6()Lscala / collection / Map;
我正在Spark上运行一个简单的Scala示例。在这一行: <pre class="lang-scala prettyprint-override"><code>val sc = new -
Spark Streaming应用程序上的多个writestream
在我的Spark流应用程序中,我试图从Azure EventHub流化数据,然后根据该数据写入hdfs blob中的几个目录。基 -
如何在Spark Scala中找到数据框的组合差异?
例如: <pre><code>+------+ |items | +------+ | 1| | 14| | 11| | 3| | 0| | 0,13| | 8| | 7| | 7,11| | -
Spark:读取表并按分区过滤
我试图了解Spark的评估。 有一个表table_name,该表由partition_column分区。这是一个以实木复合地板格 -
使用Scala从HBase读取数据时出错
我只是火花的初学者。 我试图连接到名为mimic3的Hbase myDB表,该列族称为sepsiscategories,并且有很多列。 -
如何在流式查询中使用MLlib模型(“字段“功能”不存在失败。”)?
我正在尝试使用保存的Mllib模型来预测实时流数据的情绪。 我尝试了所有发现的建议,但仍然出现 -
如何计算执行器内存,执行器数量,执行器核心数量和驱动程序内存,以使用Spark读取40GB的文件?
<strong>纱线群集配置:</strong> 8个节点 每个节点8个核心 每个节点8 GB RAM 每个节点1TB硬盘 -
Pyspark中的动态window.partitionBy列
我创建了两个数据框。 <code>df_stg_raw</code>数据框正在保存重复记录。 <code>df_qualify</code>数据帧保持<code>me -
如何使用Spark结构化流配置Confluent的Schema Registry and Avro序列化程序?
我还没有找到任何文档或示例来说明如何将Schema Registry and Avro序列化程序的设置从Confluent传递到Spark结构 -
scala-logging不会创建日志文件
我正在尝试使用scala-logging从Linux上运行的Scala / Spark项目进行日志,并通过spark-submit在Spark集群上启动。 -
Dataset.show上的ClassCastException
我的模式: <pre><code> StructField[] fields = new StructField[] { DataTypes.createStructField("id", DataTypes.Long -
在kubernetes集群中使用spark_sklearn
我正在从事机器学习项目。我最初使用scikit-learn(sklearn)库。在模型优化过程中,我使用了sklearn的经典 -
使用逗号分隔符将Spark DataFrame中的一列拆分为多列
我想使用Java Spark中的逗号分隔符从<code>Dataframe</code>的一列创建多列。 我在<code>DataFrame</code>的一 -
使用Sparklyr的xgboost函数时,ft_one_hot_endcoder或ft_one_hot_encoder_estimator?
我的sparklyr数据帧中有很多列(大约70列),在我使用sparklyr的xgboost_classifier函数构建xgboost模型之前,其 -
在PySPARK中使用从其他所有列创建的值创建一个列作为JSON
我有一个如下数据框: <pre><code>+----------+----------+--------+ | FNAME| LNAME| AGE| +----------+----------+ -
Databricks-> Snowflake:SQL编译错误:阶段:“ XYZ”不能是管道定义中的临时阶段
我尝试将Databricks的流具体化为Snowflake表: parsedStream .writeStream .outputMode(“ append”) -
可以在Spark的Cosmos DB Connector中使用Mongo Shell样式查询吗?
我正在使用Cosmos DB Connector for Spark。是否可以通过Cosmos DB连接器使用Mongo Shell“ JSON样式”查询而不是SQL -
如何使用pyspark读取嵌套的json
我的json文件如下所示 {“ numFound”:9710,“ start”:3000,“ interactions”:[{“ intID”:“ 13407682 -
存储在AWS S3中的拼花地板文件是否可拆分?
<ul> <li>我知道实木复合地板文件如果存储在块存储中是可拆分的。例如存储在HDFS上</li> <li>当它们存储在诸 -
可以使用其REST API以%的百分比在Spark中查看应用程序的进度
我正在独立Spark集群上运行Spark应用程序。如果我使用Spark REST API检查应用程序的状态,则会得到类似以 -
在Spark中处理大量小数据批处理,并将它们写入HDFS
我目前有一个Hadoop集群设置,可通过Java / Springboot后端访问。后端使用Apache Spark从集群读取数据并进行分 -
火花UDAF,用于在组级别并行处理数据帧,但在每个组中依次处理行
我们在<a href="https://stackoverflow.com/questions/58439080/spark-sql-how-to-achieve-parallel-processing-of-dataframe-at-group-level-b -
反序列化Avro Spark
我正在使用以下代码利用<code>dummy <- data.frame(categorical_1 = c("a", "b", "a", "a", " -
如何将Spark Dense Matrix转换为Spark Dataframe
我正在尝试在Scala Spark中实现一些代码,其中我有一个多类Logistic回归模型,并且该模型生成系数矩阵。 -
仅将每行的非空列收集到数组中
困难在于,我试图尽可能避免使用UDF。 我有一个数据集“ wordsDS”,其中包含许多空值: <pre> -
降低并行度会不会导致随机播放溢出?
考虑一个示例: 我有一个包含5个节点的群集,每个节点具有64个核心,并具有244 GB内存。 -
Zeppelin中导入和使用胖子罐时库兼容性问题
我们在EMR上运行了一个胖子罐,该胖子罐存储了我们所有的Spark作业,以及用于将数据集标准化读写到s3 -
在spark-submit命令中传递回传配置文件路径的干净方法
我正在为我的spark应用程序使用logback。我遇到的问题是,当我通过智能j本地运行时,我的spark应用程序