-
如何在Spark中更新dataFrame列的值
我的数据框包含国家/地区名称的缩写: <pre><code>Dense</code></pre> 我还有一个枚举,包含国家名称和 -
启动了spark dir正常工作,但spark-shell没变,无法识别错误'spark-shell'
<a href="https://i.stack.imgur.com/pZzAd.png" rel="nofollow noreferrer">cmd screenshot</a>我已经按照指示完成了所有操作, -
使用Sparklyr返回逻辑计划
我们正在尝试获取Spark为给定查询生成的<strong>逻辑</strong>计划(不要与<em> physical </em>计划混淆)。根据 -
Ucanaccess转换中的数据类型不兼容:从SQL类型CHARACTER到java.lang.Double
我的代码如下: <pre><code>val optionMap = Map( "driver" -> "net.ucanaccess.jdbc.UcanaccessDriver",  -
createOrReplaceTempView不是org.apache.spark.rdd.RDD的成员
我正在使用<strong> hadoop 2.7.2,hbase 1.4.9,spark 2.2.0,scala 2.11.8和Java 1.8 </strong>。 我在没有任何错误的情况 -
pyspark驱动程序为什么不将jar文件下载到本地存储?
我正在使用<a href="https://support.microsoft.com/en-us/help/17454/lifecycle-faq-internet-explorer" rel="nofollow noreferrer">Lifecyc -
pyspark根据匹配数据将导入列从一个df合并到另一个
我对使用数据帧非常陌生。 我有两个框架。 一个被称为<code>new</code>,另一个被称为<code>existing< -
将StopWordsRemover和RegexTokenizer应用于spark 2.4.3中的多个列
我有以下数据框df4 <pre><code>|Itemno |fits_assembly_id |fits_assembly_name -
修改mapPartitions
我正在尝试通过从其余API中获取信息来丰富数据帧,但又不让它感到不知所措-也就是说,我所寻找的本 -
如何将列表转换为具有多列的行
从csv文件创建一个DataFrame,处理每一行,想创建一个具有相同列数的新行。 <pre><code>val df = spark.read.f -
将自定义函数应用于数据框中的行组
我正在开发财务应用程序。目的是计算各种投资组合风险统计数据。第一个基本问题是: 我有一个具有 -
如何从顶点输入文件创建VertexRDD?
我有一个这样的顶点输入文件: <pre><code>(1L,(0.5,0.5)) (2L,(0.25,0.0625)) (3L,(0.125,0.125)) (4L,(0.0625,0.0625)) (5L, -
遍历Spark Dataframe,保存结果并在上一次迭代中使用结果
如何遍历spark数据框,应用业务逻辑并在下一次迭代中使用结果。由于要在此作业中处理的数据量较大, -
数据集中的拆分数量超过数据集拆分限制,Dremio + Hive + Spark
我们有一个由Hadoop + Hive + Spark + Dremio组成的堆栈,因为Spark为单个Hive分区写入多个HDFS文件(取决于工作 -
更改为kafka_2.11
我已将pom文件中的Kafka版本从2.10更改为2.11,现在我遇到错误了 pom的变化 来自 <pre><code><depen -
如何将JSON字符串数组分解为行?
我的UDF函数以字符串形式返回一个json对象数组,如何将其扩展为数据帧行? 如果不可能,还有其 -
如何使用内联Jupyter选项启动pyspark?
我正在尝试使用<code>pyspark</code>选项(内联)运行<code>Jupyter Lab</code>,如下所示。 <pre><code>PYSPARK_DRIVE -
原因:java.lang.IllegalArgumentException:类型(Scratch.Bar)的值X不能转换为struct <alias:string>
我很困惑为什么以下代码从标题中引发异常: <pre><code>class Scratch { public static void main(String[] args) { -
Pyspark无法找到数据源:kafka
我正在研究Kafka流,并尝试将其与Apache Spark集成。但是,在运行时,我遇到了问题。我收到以下错误。</p -
如何在Spark Streaming中跟踪数据滞后的EventHub和Blob
我正在研究Spark Streaming,基本上是从EventHub读取近实时数据并将其转储到Blob位置,我将需要实现水印处 -
调用Spark中的Doc2Vec并输入向量以进行逻辑回归机器学习
我运行Gensim来训练主体的Doc2vec。我需要提取每个文档的向量作为输入数据,以便在Spark中进行逻辑回归。 -
如何基于多个条件使用SparkSQL在Spark DF中选择行
我对pyspark相对较新,并且有一个带有日期列“ Issue_Date”的spark数据框。 “ Issue_Date”列包含1970年至2060 -
如何在PySpark程序中打印变量或数据框以进行控制台?
我是Spark的新手,试图像使用Pandas进行数据分析一样使用它。 在熊猫中,要查看变量,我将编写 -
在dataFrame列值中添加单引号
<code>DataFrame</code>持有一列<code>QUALIFY</code>,其值如下所示。 <pre><code>QUALIFY ================= ColA|ColB|ColC -
如何使用Spark SQL Scala API(不是SQL)检查Hive表是否为外部表
我正在使用以下代码(Spark SQL Scala API)检查Hive表是否为外部表,但是<code>df.drop("arr_split").show() # P -
如何为ADF数据工厂添加动态内容
我想为我的ADF管道添加动态参数。我有2个参数,我想用'/'连接。 <code>1. My source folder-> pipeline().paramet -
经过几次运行后,Databricks群集上计划的Spark作业间歇性故障
当前设置-Azure数据工厂管道计划每15分钟运行一次,在始终处于交互式数据块群集上运行一些Databricks笔 -
NoClassDefFoundError com / yammer指标核心量规
我首先录制了此命令: <pre><code>window</code></pre> 然后我录制以下命令: <pre><code>sepsiscategories.cr -
我有两行多列的DataFrame,如何转置为两列多行?
我有一个这样的spark DataFrame: <pre><code>+---+---+---+---+---+---+---+ | f1| f2| f3| f4| f5| f6| f7| +---+---+---+---+---+ -
由于权限问题,spark作业在客户端模式下运行,但未在集群模式下运行
我正在使用如下的spark-sbumit脚本文件运行我的spark-job <pre><code>export SPARK_HOME=/local/apps/analytics/spark-2.4.