amazon-emr

如何模拟DescribeClusterOutput

我已经编写了将与EMR服务交互的代码，并且基于clusterId它将返回集群状态。我正在尝试对其进行单元测

前端之家
2022-08-16 • 问答
将S3存储桶的前几个文件加载到Spark数据帧中的最佳方法

我正在尝试从S3存储桶中加载一些csv文件，以使用EMR触发数据帧。问题是由于海量数据，我无法一起处理

前端之家
2022-08-16 • 问答
有没有一种方法可以解析DataFrame.write的确切文件路径？

我正在使用write方法将spark DataFrame写入S3，并且想知道是否有一种方法可以解析确切的输出文件路径。</p

前端之家
2022-08-16 • 问答
如何在EMR中设置STS端点

默认情况下，EMR将sts.amazonaws.com端点用于sts请求。我们希望将其切换为使用其他一些地址xxxxxxxxxx.amazonaws.

前端之家
2022-08-16 • 问答
即使配置了EMR，也找不到Spark org.postgresql.Driver

我正在尝试使用以下代码将pyspark数据帧写入Postgres数据库： <pre><code>mode = "overwrite" url = "jdbc

前端之家
2022-08-16 • 问答
Pyspark EMR Jupyter笔记本加载JAR依赖Postgres

我正在尝试将数据帧写入Postgres数据库，并且正在关注问题<a href="https://stackoverflow.com/questions/51772350/how-to

前端之家
2022-08-16 • 问答
从Beeline连接时，Hive查询在Tez上失败，但在Map-Reduce上成功

我遇到一个奇怪的错误。我正在运行带有where子句的简单select *查询，以下是查询执行状态的摘要 <ol>

前端之家
2022-08-16 • 问答
如何在AWS EMR笔记本中加载库/ Maven依赖项

我正在使用AWS Notebook。我可以运行基于常规scala的spark作业，而无需第三方库依赖项。但是我想加载一些

前端之家
2022-08-15 • 问答
在Hive Metastore中注册Delta表错误

我需要在Hive Metastore中注册Delta表，以便能够使用连接到ThriftServer的外部报告工具进行查询 PySpark A

前端之家
2022-08-15 • 问答
多级分区表的Spark（EMR）分区修剪行为

如果我有一个用多层分区创建的表，即由两列（州，城市）组成，如下所示： <pre><code> state=CA,city=

前端之家
2022-08-15 • 问答
如何在不使用Spark的情况下从AWS EMR内部读取S3存储桶中的文本文件

我需要从EMR群集中打开一个位于S3存储桶中的常规文本文件（而不是镶木地板或CSV文件）。我可以直接使

前端之家
2022-08-14 • 问答
如何替换EMR上所有节点上的库jar？

在所有节点上创建集群时，我需要用此jar的自定义版本替换<code>/usr/share/aws/emr/emrfs/lib/emrfs-hadoop-assembly-2.

前端之家
2022-08-14 • 问答
使用s3存储桶中的数据在AWS EMR上使用pyspark.ml训练模型时发生KeyError

我正在使用pyspark.ml对来自JupyterLab笔记本中AWS EMR上s3存储桶中.json数据的json数据训练机器学习模型。存储

前端之家
2022-08-14 • 问答
在EMR中安排笔记本并发布AWS库

AWS EMR存在一些问题。我们正在尝试创建一个非常简单的数据管道。我们的过程通常是进行一些API调用

前端之家
2022-08-14 • 问答
通过EMR控制台运行PySpark时ExitCodeException exitCode = 13

我正在尝试通过控制台在EMR上运行pyspark脚本。为此，我首先在本地测试了该脚本，然后从s3下载了一个

前端之家
2022-08-14 • 问答
无法创建EMR集群-发生Java异常失败

我正在尝试使用lambda函数创建一个AWS EMR集群。每次测试该功能时，它都会开始构建集群，但随后会失败

前端之家
2022-08-14 • 问答
pyspark代码在控制台中工作，但在齐柏林飞艇中不工作

我有一个带有Spark 2.4.4和python 2.7.16的EMR（emr-5.28.0）。如果我SSH到集群并像这样执行pyspark： <p

前端之家
2022-08-14 • 问答
使用PySpark读取时过滤实木复合地板文件

我在AWS s3中存储了庞大的分区镶木地板文件数据集，我想使用AWS EMR从每个月的数据中仅读取一个样本。

前端之家
2022-08-14 • 问答
当spark动态分配为true时，EMR Cluster显示太多执行程序

我正在EMR 5.27.0中以集群模式运行spark作业。 EMR的动态火花分配属性设置为true。现在，当我开始

前端之家
2022-08-14 • 问答
Errno 13在EMR中通过Python创建zipfile时被拒绝的权限

我正在尝试在EMR中创建zip文件。 pyspark作业是通过Livy提交的。由于权限问题，无法以某种方式创建该zip

前端之家
2022-08-13 • 问答
在EMR中运行Jupyter笔记本时，没有名为“ pyspark”的模块

我通常对AWS和Spark不熟悉（很新），并且正在尝试在Amazon EMR中运行笔记本实例。当我尝试导入pyspark启动

前端之家
2022-08-13 • 问答
emrfs同步和导入卡住了，无法正常工作

在使用s3源运行spark作业时以及运行emrfs sync或emrfs import时，我一直收到不稳定错误。它运行了一定的时间

前端之家
2022-08-13 • 问答
使用分布式缓存时，Flink 1.9无法运行程序，为什么？

问题：我在EMR上运行了纱线长时间运行的会话后，例如：flink-yarn-session -d（带有其他内存配置）</

前端之家
2022-08-13 • 问答
在步骤中，EMR群集创建失败

我第一次尝试使用Lambda函数创建EMR群集失败，并显示以下错误。我打算使用script-runner.jar来启动位于S3存

前端之家
2022-08-13 • 问答
是否有一个火花库来查找句子中某个单词的语音匹配？

是否有一个火花库来查找句子中某个单词的语音匹配。对于前：句子： “有人在滑板车上。”

前端之家
2022-08-13 • 问答
使用AWS Glue将firehose json拼花地板

我正在尝试在写入s3目标之前将firehose json转换为实木复合地板。儿子中的一个字段（<code>update_timestamp</co

前端之家
2022-08-13 • 问答
跟踪多主AWS集群中的主节点故障

Am在AWS中使用EMR 5.26群集版本，它支持具有多个主节点（3个主节点）。这是为了消除群集的单点故障。

前端之家
2022-08-13 • 问答
AWS：具有多主节点设置的EMR。如何获得主动主节点

当前在AWS中具有多主节点设置。 Livy安装在所有3个节点上。在三个主节点中，是否有任何端点可以分辨

前端之家
2022-08-12 • 问答
尝试通过AWS CLI将S3存储桶名称和文件夹路径作为命令行参数传递给EMR上的python脚本

我正尝试通过AWS CLI将存储区名称和文件夹名称传递给python脚本，如下所示： <code>aws emr add-steps --c

前端之家
2022-08-12 • 问答
纱线上的Flink发生意外的块数据错误

我有一个Flink应用程序，该应用程序使用来自Kafka群集的数据并运行SQL数据转换。我正在EMR上运行此应用

前端之家
2022-08-12 • 问答

首页

下一页
末页