-
Scala -Spark在Spark SQL中用于带双引号的动态字符串的selectExpr
selectExpr的Spark Scala抛出异常 -------------------------------------------------- --------------------- ^^^ <blockquote> -
如何避免Maven Shade插件包含来自'test-jar'类型的传递依赖项?
我正在研究一个具有模块间依赖性的多模块Maven项目。例如:项目的一个模块,例如<code>spark-module</code> -
如何在Apache Spark中执行UPSERT操作?
我正在尝试使用Apache Spark使用唯一列“ ID”将记录更新并插入到旧的Dataframe中。 -
如何将BlockMatrix(org.apache.spark.mllib.linalg.distributed.BlockMatrix)保存到hdfs或本地?
我正在尝试使用spark计算大图的全对最短路径。我使用github中的代码,计算结果(距离矩阵)保存在BlockM -
如何将Spark SQL批处理作业结果写入Apache Druid?
我想将Spark批处理结果数据写入Apache Druid。我知道德鲁伊具有<strong> <em>本机批次摄入</em> </strong>,例如<c -
spark如何合并几个列上的两个数据框?
我有两个数据框 <ul> <li> a列:['q1','q2','q3','a1','a2'] </li> <li> b列:['q1','q2','q3','b','b2'] </li> -
如何使用在Spark Join中创建的列? -模棱两可的错误
我已经在scala中对此进行了一段时间的战斗,但似乎无法找到明确的解决方案。 我有2个数据框:< -
在Java Spark中尝试zipWithIndex时出错
我尝试使用<code>handleSubmit</code>在Spark中添加具有行号的列,如下所示: <pre><code>zipWithIndex</code></pre> -
如何修复“错误:找不到:键入CosmosDBSourceProvider”在databricks scala中从cosmos db读取流
我正在尝试通过以下方式从数据源使用scala来从cosmos db读取流:<a href="https://docs.microsoft.com/bs-latn-ba/azure/c -
为什么混洗溢出比混洗读取或输出大小大得多?
我有一个相当简单的PySpark作业,其中的最后一个阶段读取一些混洗的数据,在窗口上执行一些聚合,然 -
我们是否需要内存中的所有数据才能在Spark
我正在尝试对类似这样的大数据(大约50TB)进行分组操作 <pre><code>df_grouped = df.groupby(df['col1'], -
Pyspark-Fill.na位置变化。
很一般的问题的道歉: 我有一个pyspark数据帧,并以以下方式对其应用<code>fill.na</code>和<code>when</co -
Spark rand()可以返回值1.0吗?
检查Spark文档,我发现: <ul> <li>调用pyspark.sql.functions.rand <a href="https://spark.apache.org/docs/latest/api/python/ -
如何在Spark中使用不一致的数据拆分列
我试图连接两个数据框,并使用该属性的值动态创建新列(或至少尝试这样做)。 我必须从Formula -
pyspark sql查询等效功能
我刚刚开始潜入Pyspark。 有一个数据集,其中包含一些值,我将在下面演示这些值,以询问无法创 -
如何在Zeppelin中为Apache Spark更改Scala编译器选项?
当我在笔记中运行段落时,在显示屏上会出现类似的内容。 <pre><code>warning: there were 3 deprecation warnings -
从Avro表中读取数据时发生sql sql错误
当我尝试使用spark-sql从avro表中读取数据时,出现此错误。 <pre><code>Caused by: java.lang.NullPointerException -
如何在Spark中运行分析?
我是Spark的新手。我还在学习。我有一些想发表意见的问题。 <ol> <li> 我必须为应该适合作为spark作 -
在pyspark查询中使用临时表
我需要使用SQL将一些数据读入Spark。由于性能原因,该查询实际上需要一个临时表。当我尝试使用如下所 -
spark_apply适用于一个数据集,但不适用于另一个数据集(两个数据集具有相同的类型和结构)
我正在与Sparklyr合作处理数据块。 我面临的问题是,当我在一个数据集上运行时,spark_apply( -
使用Scala的Spark中的业务逻辑测试自动化工具
我基于Spark和Scala构建了一个应用程序。输入源是配置单元,Spark是中间区域,用于ETL区域的批处理。持 -
在pyspark数据框上导入架构
我是python的新手。我正在尝试读取包含我的架构定义的JSON文件。看起来像: <pre><code>{ "type" : -
如何使用spark / scala解析YAML
我有以下详细信息的yaml文件。 文件名:config.yml <pre><code>- firstName: "James" lastName: "Bond" -
使用适用于IOT应用程序的Python flask创建通知系统
我创建了一个基于烧瓶的IOT应用程序,该设备中的设备通过REST API定期发送数据,并将数据存储在数据库 -
如何修复Intellij的Scala应用程序上的“错误:找不到或加载主类”?
我试图制作一个简单的Scala应用程序,Page Rank,但是我无法运行它。 我从中获得代码的来源:<a hre -
如何在Spark Join中配置PoolingOption
我正在使用结构化流媒体2.4,并尝试使用如下的foreachBatch接收器写入一个节点Cassandra: <pre><code>foreac -
如何查找数组的任何元素是否在pyspark中的范围内
我在数据帧中有一列数组,我想知道数组的任何元素是否在一定范围内。 示例:<br/> 输入: <pre><code -
通过API访问Spark程序
我有一个运行中的spark mlib程序,该程序将nlp应用于自由文本。我将需要通过Rest API访问该程序。例如: -
用新数据改装现有的Spark ML PipelineModel
我正在使用Spark结构化流-或多或少-通过DecisionTreeRegressor调整数据。 我想重用我已经安装的PipelineMo -
将带有自定义转换器的Pyspark PipelineModel导入Scala
我最近用几个自定义转换器创建了pyspark PipelineModel,以生成不适用于本机Spark转换器的功能。这是我的一