amazon-emr

java.lang.NoClassDefFoundError: org/apache/hadoop/dynamodb/type/DynamoDBTypeFactory

有人可以帮忙解决这个问题吗？详细日志： <pre><code>13:49:50.622 [8275e9b3-01c9-499d-bc48-e1a2f06bdf5e Thread-1] ER

前端之家
2022-04-16 • 问答
引导后，AWS EMR pandas 与 pyspark 中的 numpy 发生冲突

在使用以下引导程序代码启动集群并获得以下标准输出后，当我尝试在 pyspark 中导入熊猫时，由于与标

前端之家
2022-04-16 • 问答
AWS - Lambda 无法访问 EMR 的 Livy 终端节点

作为参考，livy 是用于从集群中提取数据的休息端点。在同一个帐户中，我的 lambda 函数在尝试访问 EMR

前端之家
2022-04-16 • 问答
EMR集群中pytest的使用

我正在尝试验证用于转换的庞大数据集。我采取的方法是启动一个 EMR 集群，它为我提供一个数据列表，

前端之家
2022-04-16 • 问答
亚马逊 EMR spark-submit 不允许 docker 图像模式 sha256 diges

我正在使用亚马逊 EMR 我的问题日志如下。 <pre><code>Image name '<account_id>.dkr.ecr.ap-northeast-2.

前端之家
2022-04-16 • 问答
让 AWS EMR 常设集群始终运行结构化流是一种好的做法吗？

我有一个 Spark Structured Streaming 作业，它将数据作为来自 AWS MSK (Kafka) 的输入并写入 AWS S3。让一个常设 AWS

前端之家
2022-04-16 • 问答
Hive LDAP 身份验证组过滤器

用例：我正在尝试设置可以连接到 jdbc 以查询 hive 的 EMR 集群。我决定进行 ldap 身份验证并且我能够进行

前端之家
2022-04-16 • 问答
合并分区内的镶木地板文件

我们有一个按年、月和日分区的镶木地板文件的超大数据集。每天包含 ~200k 相当小的文件，总计 ~250gb。

前端之家
2022-04-16 • 问答
如何为 EmrCreateJobFlowOperator 指定配置文件？

我正在使用 EmrCreateJobFlowOperator 创建 EMR 集群，但我需要为其指定配置文件以查找角色“EMR_EC2_DefaultRole”

前端之家
2022-04-16 • 问答
AWS EMR 上的 Spark：使用更多执行程序

<strong>长话短说：</strong>如何在 EMR 上增加 Spark 中的执行程序数量？ <strong>长话短说：</strong>

前端之家
2022-04-16 • 问答
无法在 AWS EMR Spark 应用程序上运行 MapReduce 作业

我正在尝试从 <a href="https://mrjob.readthedocs.io/en/latest/guides/emr-quickstart.html" rel="nofollow noreferrer">mrjob</a> 运行

前端之家
2022-04-16 • 问答
尝试从 ECR 拉取 emr-6.3.0-latest 基础映像时拒绝拉取访问

我正在关注 <a href="https://docs.aws.amazon.com/emr/latest/EMR-on-EKS-DevelopmentGuide/docker-custom-images-steps.html" rel="nofollo

前端之家
2022-04-16 • 问答
使用 AWS EMR 在 mrjob 中传递参数

通常，在 <code>mrjob</code> 中，我这样定义参数： <pre class="lang-py prettyprint-override"><code>class CreateDocument(M

前端之家
2022-04-16 • 问答
HBase 批量加载生成太多存储文件

我们正在 EMR 上探索 HBase（带有 S3 存储后端）。考虑到我们的表的最终大小（数十/数百 TB），我一直在

前端之家
2022-04-16 • 问答
S3 使用 AWS Glue 写入并发

我怀疑我们在使用 AWS Glue 作业时遇到了 S3 写入并发问题。我正在测试 10 个 DPU，写入 10k 个对象，每个

前端之家
2022-04-16 • 问答
我如何解决 Windows 中的此错误“[Errno 13] Permission denied: 'C:\\Users\\jiten/.aws/credentials'”？

刚刚安装了 awscli，但我的配置有问题。当我进行 aws 配置时： <pre><code>`Access Key ID [None]: "ACCE

前端之家
2022-04-15 • 问答
在 RDS 上执行来自 EMR pyspark 的 sql 查询

我想连接到 oracle RDS 并从 pyspark EMR 执行 sql 查询（DDL 和存储过程）。最好的方法是什么。感谢您的帮助。

前端之家
2022-04-15 • 问答
{ClientError}调用 RunJobFlow 操作时发生错误 (ValidationException)：Invalid InstanceProfile

我使用 Terraform 部署了一个要在 EMR 中使用的 IAM 角色： <pre><code>data "aws_iam_policy_document" "emr_a

前端之家
2022-04-15 • 问答
如何从 EMR Spark 集群连接到远程 Kafka 集群？

我正在使用托管在 EC2 实例中的自我管理的 Kafka 集群。我想通过 EMR 集群（托管在同一区域）内的 Spark

前端之家
2022-04-15 • 问答
一段时间后，连续模式下的 Hudi Delta 流媒体作业停止

我正在提交一个 hudi delta streamer 作业以从 kafka 读取数据并存储在 S3 中。在 AWS EMR 上运行。作业运行了几

前端之家
2022-04-15 • 问答
步骤开始运行后在哪里获取 EMR 集群故障日志

我的 EMR 集群启动并且该步骤运行了一段时间，但随后该步骤被取消并且我在集群名称旁边收到一条集群

前端之家
2022-04-15 • 问答
为什么即使分区较小，具有 Chained withColumn 窗口聚合的 Spark Stage 也会继续运行 OOM？

我在 spark Job 中有一个 Stage，它包含一长串窗口聚合，无论我添加多少个分区，这些聚合都会一直失败。

前端之家
2022-04-15 • 问答
AWS EMR Spark 错误，显示`Failed to load class of driverClassName com.mysql.jdbc.Driver`

我目前正在尝试在 EMR 6.1.0 中添加一个进程，该进程将使用 Spark 将聚合数据存储在 mysql 中。但是，当我

前端之家
2022-04-15 • 问答
为什么即使使用 unpersist 也不会触发卸载内存

我有一个带有嵌套 for 循环的 spark 作业。我使用嵌套 for 循环的原因是我有一个非常大的数据集，它被分

前端之家
2022-04-15 • 问答

首页
上一页

末页