apache-spark

尝试从Spark查询HBase上的数据时出现NoSuchMethodError

我正在尝试使用SparkSQL / DataFrames查询加载到HBase表中的数据。我的集群基于Cloudera CDH 6.2.0（Spark版本2.4.0

前端之家
2022-08-16 • 问答
写入新的S3存储桶时，从源S3存储桶继承分区

以具有以下结构的S3存储桶为例： <code>s3://francesco-totti/day/hour/min/*.json.lzo</code> 一个具体的

前端之家
2022-08-16 • 问答
Lambda中的Java 8变量范围（特定于Spark）

我想用“字符串”作为键，将“行”作为值填充地图，我的代码： <pre><code>private Map<String,Row> get

前端之家
2022-08-16 • 问答
sparkstream.textfilstreaming（localpathdirectory）。我得到空结果

我给了Spark文本文件流式传输的本地路径。但是，即使添加了新文件，它也会给出空结果。该路径存在，

前端之家
2022-08-16 • 问答
分布式处理-Apache Spark，Flink，Samza，Siddhi，Hazelcast Jet

想象一个处理系统从其他内部系统或从Internet公开的REST端点接收数据。一旦接收到，一组（后台）任务

前端之家
2022-08-16 • 问答
spark-sql_2.11-2.4.0-cdh6.2.1.jar

Spark Submit命令（请参阅最后的示例命令）正在使用spark-sql_2.11-2.4.0-cdh6.2.0.jar，但是当我将版本升级到spar

前端之家
2022-08-16 • 问答
Spark独立版vs纱线

对于仅运行Spark应用程序的多租户集群，YARN的哪些功能使其比Spark Standalone模式更好？也许除了身

前端之家
2022-08-16 • 问答
为什么火花计数动作分三个阶段执行

我已经加载了一个csv文件。将其重新分区为4，然后对DataFrame进行计数。当我查看DAG时，我看到此操作分3

前端之家
2022-08-16 • 问答
多节点集群上的Flink与Spark部署模式

在Spark中，我熟悉的三个集群（非本地）部署选项： <ul> <li>独立</li> <li> Mesos </li> <li>纱

前端之家
2022-08-16 • 问答
过去end_date的气流停滞不触发计划

我有以下配置的气流障碍： <pre><code>{ 'start_date': datetime(2017, 1, 1, 0, 0, 0) 'end_date': datetime

前端之家
2022-08-16 • 问答
svd性能pyspark vs scipy

使用pyspark计算SVD： <pre><code>rdd = MLUtils.convertVectorColumnsFromML(df.select("ID", "TF_IDF")).rdd index_m

前端之家
2022-08-16 • 问答
如何从Pyspark中的DataFrame中获取这种子集？

例如，我有以下DataFrame <pre><code>+-----+----+------+ | idx | id | type | +-----+----+------+ | 0 | 10 | a | | 1 | 1

前端之家
2022-08-16 • 问答
Spark / Scala udf应该返回一个元组列表，例如Pig中的一个包

我有一个查找表，它是一个复合键=>（列，值）给定一个数据集，我希望能够查看列和列的值，并验证

前端之家
2022-08-16 • 问答
根据Spark的先前值设置列值，而无需重复分组属性

给出DataFrame： <pre><code>+------------+---------+ |variableName|dataValue| +------------+---------+ | IDKey| I1| |

前端之家
2022-08-16 • 问答
使用Livy提交Spark作业时出错：用户未初始化Spark上下文

我是Spark的新手，我正在关注本文档，以通过Livy <a href="https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-sp

前端之家
2022-08-16 • 问答
使用Spark将数据帧写入JSON数组文件

我们有以下代码： <pre><code> val sparkSession = SparkSession.builder .master("local") .appName("example"

前端之家
2022-08-16 • 问答
使用键[Glue]

我想在第一次写入之前手动定义Redshift表。这是因为我想在定义的列上使用<code>distkey</code>和<code>sortkey</c

前端之家
2022-08-16 • 问答
没有GroupBy的Pyspark SQL Pandas分组地图？阶段1 阶段2

我有一个数据集，我想使用多个Pyspark SQL <a href="https://spark.apache.org/docs/latest/sql-pyspark-pandas-with-arrow.html#gr

前端之家
2022-08-16 • 问答
Pyspark作业可能的资源限制问题

我正在用aws进行胶水作业。它基本上在aws胶工作中运行pyspark代码。这项工作会连接到几个ec2实例。对于

前端之家
2022-08-16 • 问答
spark：构建SparkSession本地模式，添加本地jar

我正在尝试在本地创建sparksession。我想把它放在罐子里。出于安全原因，我无法使用Maven。我尝试

前端之家
2022-08-16 • 问答
在AWS上重新启动Spark集群时，Flintrock卡住了

我使用Flintrock在AWS上启动Spark集群，并在使用后将其停止。当我使用命令重新启动集群时 <pre><code>flin

前端之家
2022-08-16 • 问答
Apache Spark：200个Reducer任务如何聚合20000+个映射器输出？

更新的问题 我不清楚的地方=> 在 ShuffleMapStage 中，每个映射器都会创建

前端之家
2022-08-16 • 问答
即使配置了EMR，也找不到Spark org.postgresql.Driver

我正在尝试使用以下代码将pyspark数据帧写入Postgres数据库： <pre><code>mode = "overwrite" url = "jdbc

前端之家
2022-08-16 • 问答
是否有SQL方法可以找出Spark SQL中表的物理存储大小

基础数据源以Parquet格式存储，并通过Hive公开。是否可以使用SQL查询询问给定表的物理存储大小？

前端之家
2022-08-16 • 问答
Spark：将HDFS URL与数据局部性警告并行化

我有一个HDFS zip文件URL列表，我想在RDD映射函数中打开每个文件，而不是使用binaryFiles函数。最初

前端之家
2022-08-16 • 问答
Spark：是否可以增加pyarrow缓冲区？

我试图像这样将大型（〜30GB）数据帧传递给pandas_udf： <pre><code>@f.pandas_udf(gen_udf_schema(), f.PandasUDFType.G

前端之家
2022-08-16 • 问答
Spark SQL表的基本统计估计

我知道我们可以在Spark SQL中显式<code>ANALYZE</code>表，这样我们可以获得一些准确的统计信息。但是

前端之家
2022-08-16 • 问答
在Pyspark中，如果将与partitionBy中使用的列相同的列进行分组，会发生什么情况？编辑：

我有一个按列<code>ID</code>进行分区并写入磁盘的数据集。这导致每个分区在文件系统中获得其自己的文

前端之家
2022-08-16 • 问答
pyspark rdd在一个rdd中合并多个json文件数据

我正在尝试将两个文件数据合并到一个rdd中。可以说我有两个文件<code>file1.txt</code>是大json格式的文件，

前端之家
2022-08-16 • 问答
Spark CSV中的动态ArrayType

我有一个csv，必须为它创建一个具有ArrayType列的df，问题是该列内的值是动态的，取决于第二列的值。如

前端之家
2022-08-16 • 问答