apache-spark

在安装spark 2.4.4后尝试运行pyspark时如何解决'TypeError：整数是必需的（got类型字节）'错误

我已经安装了OpenJDK 13.0.1，python 3.8和spark 2.4.4。测试安装的说明是从spark安装的根目录运行。\ bin \ pyspark

前端之家
2022-08-16 • 问答
简单的火花流而不是印刷线

我正在尝试编写一个Spark脚本来监视目录并处理流进来的数据。在下面，我没有收到任何错误，但

前端之家
2022-08-16 • 问答
引用聚合结果将导致Spark不采取任何措施

在Spark中，如果我进行汇总，有什么方法可以使用这些结果而无需执行任何操作？我正在尝试构建

前端之家
2022-08-16 • 问答
Hive时间戳格式？

配置单元支持任何特定的时间戳格式吗？我的spark作业有一个时间戳“ yyyy-MM-dd-HH-mm-ss”，但是在

前端之家
2022-08-16 • 问答
无法在Cloudera Quickstart Docker上启动Cloudera服务

我正在尝试在Cloudera的quickstart docker映像（5.13.0）上启动cloudera服务。我从Cloudera网站下载了该图像

前端之家
2022-08-16 • 问答
如何使用Spark DataFrame groupBy不是agg？

我想要一个Spark DataFrame组。但是我不知道该怎么做？仅使用spark对列进行分组。我用谷歌搜索，

前端之家
2022-08-16 • 问答
如何在火花编码器中映射Cassandra日期类型？

我正在尝试在cassandra表上实现简单的聚合。但无法在Spark中映射cassandra日期类型。尝试映射<code>String</code

前端之家
2022-08-16 • 问答
如何使用Apache Spark和lxml解析，过滤和聚合数据？

我已经使用<code>etree.fromstring(x)</code>从<a href="https://lxml.de/2.2/index.html" rel="nofollow noreferrer">lxml</a>创建了一

前端之家
2022-08-16 • 问答
如何使用Spark Cassandra连接器存储结构类型

我具有以下JSON结构，其中包含员工详细信息及其地址- <pre><code>[ {"id" : 1000, "name" : "dev

前端之家
2022-08-16 • 问答
时间戳转换

我的below函数没有将日期转换为定义的格式。 <pre><code> val oldFormat= new SimpleDateFormat("yyyy-MM-dd-HH.mm.s

前端之家
2022-08-16 • 问答
如何调试spark dropduplicate和join函数调用？

有些表具有重复的行。我正在尝试减少重复项并保留最新的<code>my_date</code>（如果有的话）具有相同<code

前端之家
2022-08-16 • 问答
Spark操作员停止使用Kubernetes

Spark Operator工作正常，但突然停止工作，并出现以下错误。 kubernetes版本或spark-operator版本没有变化。

前端之家
2022-08-16 • 问答
使用选项sessionInitStatement，Oracle“更改会话集EDITION ..”似乎不起作用

我想从激活Oracle版本功能时可见的视图中进行选择。 <pre><code>alter session set EDITION=MYEDITION view1 view1_ed

前端之家
2022-08-16 • 问答
如何获得Spark中加入导致的行数

考虑以下两个数据框： <pre><code>+---+ |id | +---+ |1 | |2 | |3 | +---+ +---+-----+ |idz|word | +---+-----+ |1 |bat

前端之家
2022-08-16 • 问答
推入现有的本地表故障（Windows）：InvalidRegionNumberException然后IllegalArgumentException

我想将数据推送到一个已经存在的表中，单列族，没有记录。我在Windows机器上使用shc-core：1.1.1-2.1-s_2.11

前端之家
2022-08-16 • 问答
从Cassandra表读取的Pyspark代码需要近14分钟的时间来读取6 GB数据

火花群集我正在使用4个核心和4个执行程序实例。过滤后的Cassandra表数据大小为6GB。使用pyspark代码从此

前端之家
2022-08-16 • 问答
如何在Spark Submit中添加多个jar？

<pre><code>--jars ${BASE_DIR}/bin/jtds-1.3.1.jar,${BASE_DIR}/bin/jconn3-6.10.jar \ --driver-class-path net.sourceforge.jtds.jdbc.Driver: c

前端之家
2022-08-16 • 问答
使用Spark 2.4识别空的JSON文件

我想避免处理空的JSON文件。我得到的一些空的JSON文件仅包含左方括号和右方括号，例如：<code>[]</code>。

前端之家
2022-08-16 • 问答
在Docker中运行Spark历史记录服务器以查看AWS Glue作业

我已将AWS Glue设置为输出Spark事件日志，以便可以将其导入Spark History Server。 AWS为此提供了<a href="https://do

前端之家
2022-08-16 • 问答
如何在Dataframe上处理类似Spark Map的作业，其中每行输出取决于当前行和上一个输出？

任何人都可以帮助解决以下问题吗？ 形式问题 在给定类型为<code>A</code>的数据帧的

前端之家
2022-08-16 • 问答
Pyspark UDF函数引发错误

我正在尝试实现两个时间戳列值之间的差异。尝试使用Spark中提供的不同方法来获得相同的结果。使用Spa

前端之家
2022-08-16 • 问答
第三方隐式val的Spark序列化解决方法

我正在运行一个Spark作业，该作业沿线执行一些Http调用。我决定使用一个库<code>Sttp</code>，它需要一个<co

前端之家
2022-08-16 • 问答
如何在groupby-aggregate表达式中结合UDAF和函数？

我正在尝试开发一个自定义描述。为此，我将结合pyspark.sql.functions中的函数与其他用户聚合的自定

前端之家
2022-08-16 • 问答
如何使用Apache Spark读取来自公式的Excel文件列数据

我正在尝试读取Spark中的一个excel文件。我为此使用<code>crealytics</code>库。但是我的代码失败了，

前端之家
2022-08-16 • 问答
尽管所有端口都已明确设置，但Spark执行程序将结果发送到随机端口

我试图通过在Docker中运行的Jupyter笔记本电脑与PySpark进行火花作业。工作人员位于同一网络中的不同计算

前端之家
2022-08-16 • 问答
使用Spark和Elastic Search时在Kafka中存储偏移量的正确方法

我对此进行了大量研究，但仍然无法找到合适的方法。无论走到哪里，我都发现最简单的方法是调用<code

前端之家
2022-08-16 • 问答
是否有其他方法可以在Spark中进行迭代联接-scala

用例是在给定的列中找到n个最大行（这些列可以是n个列），一旦拥有n个键，便将其重新连接到原始数

前端之家
2022-08-16 • 问答
找不到错误值spark import spark.implicits._ import spark.sql

我正在<hadoop集群上使用 hadoop 2.7.2，hbase 1.4.9，spark 2.2.0，scala 2.11.8和Java 1.8 一位主人，

前端之家
2022-08-16 • 问答
PySpark和Tensorflow-虚拟编码字符串数据

我想对数据进行虚拟编码（或类似），以提供给Keras。现在，我用Spark处理表格数据，然后使用Kera

前端之家
2022-08-16 • 问答
使用scala检查临时文件（信号量）是否存在

请问如何读取（检查）在系统上创建的临时文件。我需要使用Scala检查临时文件是否存在我

前端之家
2022-08-16 • 问答