-
在安装spark 2.4.4后尝试运行pyspark时如何解决'TypeError:整数是必需的(got类型字节)'错误
我已经安装了OpenJDK 13.0.1,python 3.8和spark 2.4.4。测试安装的说明是从spark安装的根目录运行。\ bin \ pyspark -
简单的火花流而不是印刷线
我正在尝试编写一个Spark脚本来监视目录并处理流进来的数据。 在下面,我没有收到任何错误,但 -
引用聚合结果将导致Spark不采取任何措施
在Spark中,如果我进行汇总,有什么方法可以使用这些结果而无需执行任何操作? 我正在尝试构建 -
Hive时间戳格式?
配置单元支持任何特定的时间戳格式吗? 我的spark作业有一个时间戳“ yyyy-MM-dd-HH-mm-ss”,但是在 -
无法在Cloudera Quickstart Docker上启动Cloudera服务
我正在尝试在Cloudera的quickstart docker映像(5.13.0)上启动cloudera服务。 我从Cloudera网站下载了该图像 -
如何使用Spark DataFrame groupBy不是agg?
我想要一个Spark DataFrame组。但是我不知道该怎么做? 仅使用spark对列进行分组。我用谷歌搜索, -
如何在火花编码器中映射Cassandra日期类型?
我正在尝试在cassandra表上实现简单的聚合。但无法在Spark中映射cassandra日期类型。尝试映射<code>String</code -
如何使用Apache Spark和lxml解析,过滤和聚合数据?
我已经使用<code>etree.fromstring(x)</code>从<a href="https://lxml.de/2.2/index.html" rel="nofollow noreferrer">lxml</a>创建了一 -
如何使用Spark Cassandra连接器存储结构类型
我具有以下JSON结构,其中包含员工详细信息及其地址- <pre><code>[ {"id" : 1000, "name" : "dev -
时间戳转换
我的below函数没有将日期转换为定义的格式。 <pre><code> val oldFormat= new SimpleDateFormat("yyyy-MM-dd-HH.mm.s -
如何调试spark dropduplicate和join函数调用?
有些表具有重复的行。我正在尝试减少重复项并保留最新的<code>my_date</code>(如果有的话) 具有相同<code -
Spark操作员停止使用Kubernetes
Spark Operator工作正常,但突然停止工作,并出现以下错误。 kubernetes版本或spark-operator版本没有变化。 -
使用选项sessionInitStatement,Oracle“更改会话集EDITION ..”似乎不起作用
我想从激活Oracle版本功能时可见的视图中进行选择。 <pre><code>alter session set EDITION=MYEDITION view1 view1_ed -
如何获得Spark中加入导致的行数
考虑以下两个数据框: <pre><code>+---+ |id | +---+ |1 | |2 | |3 | +---+ +---+-----+ |idz|word | +---+-----+ |1 |bat -
推入现有的本地表故障(Windows):InvalidRegionNumberException然后IllegalArgumentException
我想将数据推送到一个已经存在的表中,单列族,没有记录。 我在Windows机器上使用shc-core:1.1.1-2.1-s_2.11 -
从Cassandra表读取的Pyspark代码需要近14分钟的时间来读取6 GB数据
火花群集我正在使用4个核心和4个执行程序实例。 过滤后的Cassandra表数据大小为6GB。 使用pyspark代码从此 -
如何在Spark Submit中添加多个jar?
<pre><code>--jars ${BASE_DIR}/bin/jtds-1.3.1.jar,${BASE_DIR}/bin/jconn3-6.10.jar \ --driver-class-path net.sourceforge.jtds.jdbc.Driver: c -
使用Spark 2.4识别空的JSON文件
我想避免处理空的JSON文件。我得到的一些空的JSON文件仅包含左方括号和右方括号,例如:<code>[]</code>。 -
在Docker中运行Spark历史记录服务器以查看AWS Glue作业
我已将AWS Glue设置为输出Spark事件日志,以便可以将其导入Spark History Server。 AWS为此提供了<a href="https://do -
如何在Dataframe上处理类似Spark Map的作业,其中每行输出取决于当前行和上一个输出?
任何人都可以帮助解决以下问题吗? <strong>形式问题</strong> 在给定类型为<code>A</code>的数据帧的 -
Pyspark UDF函数引发错误
我正在尝试实现两个时间戳列值之间的差异。尝试使用Spark中提供的不同方法来获得相同的结果。使用Spa -
第三方隐式val的Spark序列化解决方法
我正在运行一个Spark作业,该作业沿线执行一些Http调用。我决定使用一个库<code>Sttp</code>,它需要一个<co -
如何在groupby-aggregate表达式中结合UDAF和函数?
我正在尝试开发一个自定义描述。为此,我将结合pyspark.sql.functions中的函数与其他<strong>用户聚合的自定 -
如何使用Apache Spark读取来自公式的Excel文件列数据
我正在尝试读取Spark中的一个excel文件。我为此使用<code>crealytics</code>库。 但是我的代码失败了, -
尽管所有端口都已明确设置,但Spark执行程序将结果发送到随机端口
我试图通过在Docker中运行的Jupyter笔记本电脑与PySpark进行火花作业。工作人员位于同一网络中的不同计算 -
使用Spark和Elastic Search时在Kafka中存储偏移量的正确方法
我对此进行了大量研究,但仍然无法找到合适的方法。无论走到哪里,我都发现最简单的方法是调用<code -
是否有其他方法可以在Spark中进行迭代联接-scala
用例是在给定的列中找到n个最大行(这些列可以是n个列),一旦拥有n个键,便将其重新连接到原始数 -
找不到错误值spark import spark.implicits._ import spark.sql
我正在<hadoop集群</em>上使用<strong> hadoop 2.7.2,hbase 1.4.9,spark 2.2.0,scala 2.11.8和Java 1.8 </strong>一位主人, -
PySpark和Tensorflow-虚拟编码字符串数据
我想对数据进行虚拟编码(或类似),以提供给Keras。 现在,我用Spark处理表格数据,然后使用Kera -
使用scala检查临时文件(信号量)是否存在
请问如何读取(检查)在系统上创建的临时文件。 我需要使用Scala检查临时文件是否存在 我