-
尝试从Spark查询HBase上的数据时出现NoSuchMethodError
我正在尝试使用SparkSQL / DataFrames查询加载到HBase表中的数据。我的集群基于Cloudera CDH 6.2.0(Spark版本2.4.0 -
写入新的S3存储桶时,从源S3存储桶继承分区
以具有以下结构的S3存储桶为例: <code>s3://francesco-totti/day/hour/min/*.json.lzo</code> 一个具体的 -
Lambda中的Java 8变量范围(特定于Spark)
我想用“字符串”作为键,将“行”作为值填充地图,我的代码: <pre><code>private Map<String,Row> get -
sparkstream.textfilstreaming(localpathdirectory)。我得到空结果
我给了Spark文本文件流式传输的本地路径。但是,即使添加了新文件,它也会给出空结果。该路径存在, -
分布式处理-Apache Spark,Flink,Samza,Siddhi,Hazelcast Jet
想象一个处理系统从其他内部系统或从Internet公开的REST端点接收数据。一旦接收到,一组(后台)任务 -
spark-sql_2.11-2.4.0-cdh6.2.1.jar
Spark Submit命令(请参阅最后的示例命令)正在使用spark-sql_2.11-2.4.0-cdh6.2.0.jar,但是当我将版本升级到spar -
Spark独立版vs纱线
<em>对于仅运行Spark应用程序的多租户集群,YARN的哪些功能使其比Spark Standalone模式更好?</em>也许除了身 -
为什么火花计数动作分三个阶段执行
我已经加载了一个csv文件。将其重新分区为4,然后对DataFrame进行计数。当我查看DAG时,我看到此操作分3 -
多节点集群上的Flink与Spark部署模式
在Spark中,我熟悉的三个<strong>集群</strong>(非本地)部署选项: <ul> <li>独立</li> <li> Mesos </li> <li>纱 -
过去end_date的气流停滞不触发计划
我有以下配置的气流障碍: <pre><code>{ 'start_date': datetime(2017, 1, 1, 0, 0, 0) 'end_date': datetime -
svd性能pyspark vs scipy
使用pyspark计算SVD: <pre><code>rdd = MLUtils.convertVectorColumnsFromML(df.select("ID", "TF_IDF")).rdd index_m -
如何从Pyspark中的DataFrame中获取这种子集?
例如,我有以下DataFrame <pre><code>+-----+----+------+ | idx | id | type | +-----+----+------+ | 0 | 10 | a | | 1 | 1 -
Spark / Scala udf应该返回一个元组列表,例如Pig中的一个包
我有一个查找表,它是一个复合键=>(列,值) 给定一个数据集,我希望能够查看列和列的值,并验证 -
根据Spark的先前值设置列值,而无需重复分组属性
给出DataFrame: <pre><code>+------------+---------+ |variableName|dataValue| +------------+---------+ | IDKey| I1| | -
使用Livy提交Spark作业时出错:用户未初始化Spark上下文
我是Spark的新手,我正在关注本文档,以通过Livy <a href="https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-sp -
使用Spark将数据帧写入JSON数组文件
我们有以下代码: <pre><code> val sparkSession = SparkSession.builder .master("local") .appName("example" -
使用键[Glue]
我想在第一次写入之前手动定义Redshift表。这是因为我想在定义的列上使用<code>distkey</code>和<code>sortkey</c -
没有GroupBy的Pyspark SQL Pandas分组地图? 阶段1 阶段2
我有一个数据集,我想使用多个Pyspark SQL <a href="https://spark.apache.org/docs/latest/sql-pyspark-pandas-with-arrow.html#gr -
Pyspark作业可能的资源限制问题
我正在用aws进行胶水作业。它基本上在aws胶工作中运行pyspark代码。这项工作会连接到几个ec2实例。对于 -
spark:构建SparkSession本地模式,添加本地jar
我正在尝试在本地创建sparksession。我想把它放在罐子里。出于安全原因,我无法使用Maven。 我尝试 -
在AWS上重新启动Spark集群时,Flintrock卡住了
我使用Flintrock在AWS上启动Spark集群,并在使用后将其停止。当我使用命令重新启动集群时 <pre><code>flin -
Apache Spark:200个Reducer任务如何聚合20000+个映射器输出?
<strong>更新的问题</strong> 我不清楚的地方=> 在<strong> ShuffleMapStage </strong>中,每个映射器都会创建 -
即使配置了EMR,也找不到Spark org.postgresql.Driver
我正在尝试使用以下代码将pyspark数据帧写入Postgres数据库: <pre><code>mode = "overwrite" url = "jdbc -
是否有SQL方法可以找出Spark SQL中表的物理存储大小
基础数据源以Parquet格式存储,并通过Hive公开。 是否可以使用SQL查询询问给定表的物理存储大小? -
Spark:将HDFS URL与数据局部性警告并行化
我有一个HDFS zip文件URL列表,我想在RDD映射函数中打开每个文件,而不是使用binaryFiles函数。 最初 -
Spark:是否可以增加pyarrow缓冲区?
我试图像这样将大型(〜30GB)数据帧传递给pandas_udf: <pre><code>@f.pandas_udf(gen_udf_schema(), f.PandasUDFType.G -
Spark SQL表的基本统计估计
我知道我们可以在Spark SQL中显式<code>ANALYZE</code>表,这样我们可以获得一些准确的统计信息。 但是 -
在Pyspark中,如果将与partitionBy中使用的列相同的列进行分组,会发生什么情况? 编辑:
我有一个按列<code>ID</code>进行分区并写入磁盘的数据集。这导致每个分区在文件系统中获得其自己的文 -
pyspark rdd在一个rdd中合并多个json文件数据
我正在尝试将两个文件数据合并到一个rdd中。可以说我有两个文件<code>file1.txt</code>是大json格式的文件, -
Spark CSV中的动态ArrayType
我有一个csv,必须为它创建一个具有ArrayType列的df,问题是该列内的值是动态的,取决于第二列的值。如