-
从一列减去 1 秒 带有结果的完整可重现示例使用 rundate 导出 last_date
我从以下来源获得一个字段值: <pre><code>id | cr_date ----------------------- 1 | 19.06.2021 ---------------------- 2 -
Spark从一个hive表中检索多个特征值并合并成一个二维数组
我有一个包含对象 ID、特征 ID 和特征值的配置单元表,如下所示。我有一个特征 ID 数组,我用它为每个 -
当条件无法正常工作时 - pyspark
代码: <pre class="lang-py prettyprint-override"><code>Df1 = df.withColumn( "sales", when(col("sales").isN -
Scala - Spark:获取包含空值的列的列名
情况如下:我有一个 DataFrame,我想在其中获取包含一个或多个空值的列的列名。 到目前为止我所 -
Spark 驱动程序进程是否会溢出到磁盘?
我在 spark thrift 服务器中运行大型 sql 查询时遇到了 OOM 错误。想知道 Spark Master 是否能够将数据溢出到磁 -
-Spark Scala Mongodb- MongoTypeConversionException 无法将 STRING 转换为 StructType(...)
非常感谢任何帮助。 我正在尝试使用来自 mongodb 的数据构建一个数据框。 <pre><code>val spark = Spark -
您可以将数据框从 Scala 插入到 Teradata 存储过程中吗?
我正在尝试实现获取数据帧并将其用作teradata中存储过程的输入。这是代码 <pre><code>def dfToStoredProc(stor -
在 Spark Sql 中透视多列和多行
我有以下数据。 <a href="https://i.stack.imgur.com/olrpw.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/ -
PySpark : AttributeError: 'DataFrame' 对象没有属性 'values'
我是 PySpark 的新手,我想将以下 Pythonic 脚本翻译成 pyspark: <pre class="lang-py prettyprint-override"><code>api_pa -
如何在此 SQL 查询中按 user_id 分组?
这是我正在处理的查询。并附上输出。 <pre><code>spark.sql("SELECT tip.user_id, user.name, tip.compliment_count FRO -
PySpark 可以通过 JDBC 驱动程序将字符串数组写入数据库吗?
我正在使用 PySpark,我想将一个字符串数组插入到具有 JDBC 驱动程序的数据库中,但出现以下错误: < -
Spark 2.3 (Scala) - 将时间戳列从 UTC 转换为另一列中指定的时区
我有一个包含如下数据的数据框: <pre><code> +----------------------+------------+ | utc_timestamp | tz_lo -
Pyspark 中的指数函数
代码: <pre><code>df1 = df.withColumn("Col3", when(col("Col2")=="Tree",exp(-50*col("Col1")))) </co -
是否可以在 pyspark select 数据框中检查列是否存在?
我有一个 JSON,其中某些列有时不存在于结构中。我正在尝试设置条件,但出现错误。 我的代码是 -
如何在 Spark sql 中使用外部应用
我是 Spark sql 的新手。我的情况是将现有的 sql 查询转换为 spark sql。 我现有的 sql 查询包含需要在 spark sq -
自定义偏移中的间歇性故障——spark kafka 批处理
我有 spark kafka 批处理代码。相同的代码有时可以正常工作,有时会因 kafka 偏移而引发错误。 错误 -
Spark 3.1 - 使用 FilterFunction<Row> 的 java 数据集过滤器
我想用java根据spark 3.1中的某些条件过滤数据集。 这是我的输入数据集 <pre><code>+------+------+-------------- -
调用 o79.getDynamicFrame 时出错。 [Amazon](500310) 无效操作:“s_next_of_kin”处或附近的语法错误
我在 redshift 中有一个表,其中有一个列名 -->( agent's_next_of_kin) 如果你看到它的名字中有一个撇号 现在, -
根据其他列中的值删除/更新 spark 数据帧行
我有 2 个数据框,我根据其中一列中的字符串是否包含在另一个数据框中的消息列中来加入这 2 个。 -
如何通过反射方法在pyspark中获取firstDayOfWeek
我正在尝试获取一周的第一天,尝试使用以下代码找出是星期一还是星期日,但出现以下错误 <pre clas -
如何设置 SimpleDateFormat W 使用星期一作为一周的第一天而不是星期日(美国默认)
如何设置 SimpleDateFormat "W" 使用星期一作为一周的第一天而不是星期日(美国默认) 我正在尝试使 -
使用 AND
数据: <pre class="lang-py prettyprint-override"><code>from pyspark.sql import SparkSession, functions as F spark = SparkSession.b -
将列表添加到 Scala/Spark 中的数据帧,以便将每个元素添加到单独的行
比如说我有一个以下格式的数据框(实际上是更多的文档): <pre><code>df.show() //output +-----+-----+--- -
从 pyspark 中的另一个数据库加载表
嗨,我敬爱的伙伴们! 我目前正在使用 AWS 和 PySpark。我的表存储在 S3 中,可从 Athena 查询。 -
具有 spark-submit 集群模式的 spring boot
我们正在尝试通过下面的 spark 执行器实现并行性,这是我们遵循的步骤 - <ul> <li>从蜂巢读取</li> <li> -
使用 Spark saveAsTable +overwrite 模式最大限度地减少 hive 表的停机时间
我正在尝试将 pyspark dataframewriter 的 saveAsTable 与覆盖模式一起用于 hive 全表刷新用例。我想最大限度地减 -
使用连接键查找修改/删除列表中第一次出现的记录
我有一种算法可以将前端应用程序的写回转换为经过清理的数据集。 在前端,用户可以添加新记录或修 -
有没有办法在 SPARK SQL 中将我们的视图调用到不同的笔记本?
我是数据块的新手,我主要在那里研究 SQL。我在一个笔记本中创建了一个临时视图,我必须在另一个笔 -
在 PySpark 数据框中添加一个可为空的列
在 Spark 中,文字列在添加时不可为空: <pre class="lang-py prettyprint-override"><code>from pyspark.sql import SparkSes -
使用 pyspark 从 db2 中提取 UTF-8 数据
我正在尝试使用 pyspark 从 db2 中提取 utf-8 数据。 使用的代码: <pre><code>remote_table = spark.read.format