apache-spark

Scala -Spark在Spark SQL中用于带双引号的动态字符串的selectExpr

selectExpr的Spark Scala抛出异常 -------------------------------------------------- --------------------- ^^^ <blockquote>

前端之家
2022-08-15 • 问答
如何避免Maven Shade插件包含来自'test-jar'类型的传递依赖项？

我正在研究一个具有模块间依赖性的多模块Maven项目。例如：项目的一个模块，例如<code>spark-module</code>

前端之家
2022-08-15 • 问答
如何在Apache Spark中执行UPSERT操作？

我正在尝试使用Apache Spark使用唯一列“ ID”将记录更新并插入到旧的Dataframe中。

前端之家
2022-08-15 • 问答
如何将BlockMatrix（org.apache.spark.mllib.linalg.distributed.BlockMatrix）保存到hdfs或本地？

我正在尝试使用spark计算大图的全对最短路径。我使用github中的代码，计算结果（距离矩阵）保存在BlockM

前端之家
2022-08-15 • 问答
如何将Spark SQL批处理作业结果写入Apache Druid？

我想将Spark批处理结果数据写入Apache Druid。我知道德鲁伊具有 本机批次摄入 ，例如<c

前端之家
2022-08-15 • 问答
spark如何合并几个列上的两个数据框？

我有两个数据框 <ul> <li> a列：['q1'，'q2'，'q3'，'a1'，'a2'] </li> <li> b列：['q1'，'q2'，'q3'，'b'，'b2'] </li>

前端之家
2022-08-15 • 问答
如何使用在Spark Join中创建的列？ -模棱两可的错误

我已经在scala中对此进行了一段时间的战斗，但似乎无法找到明确的解决方案。我有2个数据框：<

前端之家
2022-08-15 • 问答
在Java Spark中尝试zipWithIndex时出错

我尝试使用<code>handleSubmit</code>在Spark中添加具有行号的列，如下所示： <pre><code>zipWithIndex</code></pre>

前端之家
2022-08-15 • 问答
如何修复“错误：找不到：键入CosmosDBSourceProvider”在databricks scala中从cosmos db读取流

我正在尝试通过以下方式从数据源使用scala来从cosmos db读取流：<a href="https://docs.microsoft.com/bs-latn-ba/azure/c

前端之家
2022-08-15 • 问答
为什么混洗溢出比混洗读取或输出大小大得多？

我有一个相当简单的PySpark作业，其中的最后一个阶段读取一些混洗的数据，在窗口上执行一些聚合，然

前端之家
2022-08-15 • 问答
我们是否需要内存中的所有数据才能在Spark

我正在尝试对类似这样的大数据（大约50TB）进行分组操作 <pre><code>df_grouped = df.groupby(df['col1'],

前端之家
2022-08-15 • 问答
Pyspark-Fill.na位置变化。

很一般的问题的道歉：我有一个pyspark数据帧，并以以下方式对其应用<code>fill.na</code>和<code>when</co

前端之家
2022-08-15 • 问答
Spark rand（）可以返回值1.0吗？

检查Spark文档，我发现： <ul> <li>调用pyspark.sql.functions.rand <a href="https://spark.apache.org/docs/latest/api/python/

前端之家
2022-08-15 • 问答
如何在Spark中使用不一致的数据拆分列

我试图连接两个数据框，并使用该属性的值动态创建新列（或至少尝试这样做）。我必须从Formula

前端之家
2022-08-15 • 问答
pyspark sql查询等效功能

我刚刚开始潜入Pyspark。有一个数据集，其中包含一些值，我将在下面演示这些值，以询问无法创

前端之家
2022-08-15 • 问答
如何在Zeppelin中为Apache Spark更改Scala编译器选项？

当我在笔记中运行段落时，在显示屏上会出现类似的内容。 <pre><code>warning: there were 3 deprecation warnings

前端之家
2022-08-15 • 问答
从Avro表中读取数据时发生sql sql错误

当我尝试使用spark-sql从avro表中读取数据时，出现此错误。 <pre><code>Caused by: java.lang.NullPointerException

前端之家
2022-08-15 • 问答
如何在Spark中运行分析？

我是Spark的新手。我还在学习。我有一些想发表意见的问题。 <ol> <li> 我必须为应该适合作为spark作

前端之家
2022-08-15 • 问答
在pyspark查询中使用临时表

我需要使用SQL将一些数据读入Spark。由于性能原因，该查询实际上需要一个临时表。当我尝试使用如下所

前端之家
2022-08-15 • 问答
spark_apply适用于一个数据集，但不适用于另一个数据集（两个数据集具有相同的类型和结构）

我正在与Sparklyr合作处理数据块。我面临的问题是，当我在一个数据集上运行时，spark_apply（

前端之家
2022-08-15 • 问答
使用Scala的Spark中的业务逻辑测试自动化工具

我基于Spark和Scala构建了一个应用程序。输入源是配置单元，Spark是中间区域，用于ETL区域的批处理。持

前端之家
2022-08-15 • 问答
在pyspark数据框上导入架构

我是python的新手。我正在尝试读取包含我的架构定义的JSON文件。看起来像： <pre><code>{ "type" :

前端之家
2022-08-15 • 问答
如何使用spark / scala解析YAML

我有以下详细信息的yaml文件。文件名：config.yml <pre><code>- firstName: "James" lastName: "Bond"

前端之家
2022-08-15 • 问答
使用适用于IOT应用程序的Python flask创建通知系统

我创建了一个基于烧瓶的IOT应用程序，该设备中的设备通过REST API定期发送数据，并将数据存储在数据库

前端之家
2022-08-15 • 问答
如何修复Intellij的Scala应用程序上的“错误：找不到或加载主类”？

我试图制作一个简单的Scala应用程序，Page Rank，但是我无法运行它。我从中获得代码的来源：<a hre

前端之家
2022-08-15 • 问答
如何在Spark Join中配置PoolingOption

我正在使用结构化流媒体2.4，并尝试使用如下的foreachBatch接收器写入一个节点Cassandra： <pre><code>foreac

前端之家
2022-08-15 • 问答
如何查找数组的任何元素是否在pyspark中的范围内

我在数据帧中有一列数组，我想知道数组的任何元素是否在一定范围内。示例： 输入： <pre><code

前端之家
2022-08-15 • 问答
通过API访问Spark程序

我有一个运行中的spark mlib程序，该程序将nlp应用于自由文本。我将需要通过Rest API访问该程序。例如：

前端之家
2022-08-15 • 问答
用新数据改装现有的Spark ML PipelineModel

我正在使用Spark结构化流-或多或少-通过DecisionTreeRegressor调整数据。我想重用我已经安装的PipelineMo

前端之家
2022-08-15 • 问答
将带有自定义转换器的Pyspark PipelineModel导入Scala

我最近用几个自定义转换器创建了pyspark PipelineModel，以生成不适用于本机Spark转换器的功能。这是我的一

前端之家
2022-08-15 • 问答