amazon-emr

如何在群集之间复制Hive表

我有两个与Hive一起运行的EMR集群。对于集群A，Hive表实际上只是指向AWS S3中的实木复合地板文件

前端之家
2022-08-12 • 问答
使用STEPCONCURRENCYLEVEL作为PHP代码中的新参数启动AWS EMR集群（版本标签-5.28.0）

我正尝试使用STEPCONCURRENCYLEVEL作为新参数启动AWS EMR集群（发行标签-5.28.0），但是它使用默认值1，有人可

前端之家
2022-08-12 • 问答
连接到EMR的SageMaker笔记本导入自定义Python模块

我浏览了类似的问题，但没有一个解决了我的问题。我有一个SageMaker笔记本实例，打开了一个连接到AWS

前端之家
2022-08-12 • 问答
如何使用数据管道中的实例队列来旋转EMR集群？

我使用数据管道调度emr作业。直到现在，我仍在对emr群集使用统一的实例组。我想尝试实例队列，以减

前端之家
2022-08-12 • 问答
AWS EMR步骤找不到从s3导入的jar

我正在尝试以客户端模式在aws emr上运行spark应用程序。我已经设置了一个引导操作，以从s3导入所需的文

前端之家
2022-08-11 • 问答
AWS Lambda NodeJS启动EMR Spark问题

我正在尝试使用Lambda（NodeJS-12）中的以下脚本启动EMR集群。 <pre class="lang-js prettyprint-override"><code>var A

前端之家
2022-08-11 • 问答
用户代理解析器（ua-parser）减慢了EMR上的Spark

我在UDF中使用<a href="https://github.com/ua-parser/uap-scala" rel="nofollow noreferrer">ua-parser</a>来解析用户代理信息。

前端之家
2022-08-11 • 问答
将EMR日志发送到CloudWatch

是否可以将EMR日志发送到CloudWatch而不是S3。我们希望将所有服务日志都放在一个位置。似乎您唯一能做

前端之家
2022-08-11 • 问答
如何在多个子网上运行AWS EMR集群？

当前，我们正在使用EMR中的config.json文件创建实例以配置集群。此文件指定一个子网（“ Ec2SubnetId”）。

前端之家
2022-08-11 • 问答
如何在命令行中克隆AWS EMR集群？

我有一个重复任务，需要克隆一个现有的EMR集群（使用不同名称的除外）。我一直在AWS控制台中执行此

前端之家
2022-08-11 • 问答
无法访问EMR 5.28.0上的boto3

我使用AWS UI创建了EMR集群，但没有引导安装boto3。现在，我要执行使用boto3的pyspark脚本。因此，我通过SSH

前端之家
2022-08-11 • 问答
查找我的Spark作业输出文件的位置

我正在AWS的EMR集群中测试pyspark作业。我们的目标是使用Lambda函数触发Spark作业，但是现在我正在手动运

前端之家
2022-08-11 • 问答
任何用于将文件从Amazon EMR上的HDFS从Spark应用程序移动到Amazon S3的AWS S3 API

我们需要将Spark作业（在EMR生成的Hadoop集群上运行）中的文件复制到相应的S3存储桶。到目前为止，我们

前端之家
2022-08-11 • 问答
为什么我们可以对AWS中的EMR集群使用竞价型实例？

我在AWS实践中遇到了这个问题，并希望将其发布在此处进行进一步讨论： <blockquote> 您的公司是

前端之家
2022-08-11 • 问答
Hive查询在Tez引擎中失败，但以MR模式运行

我已将我的蜂巢引擎更改为Tez，并希望使用tez运行查询，但是查询仅对hadoop和hive用户执行，并且当我在b

前端之家
2022-08-11 • 问答
EMR上的Spark失败，显示“ alter_table_with_cascade”

使用Spark sql创建配置单元表时，EMR上的火花失败。示例代码 <pre><code>import org.apache.spark.sql.hive.HiveCont

前端之家
2022-08-11 • 问答
DynamoDBStorageHandler Hive连接器

当我从EMR群集中的Hive shell运行以下命令时： <pre><code>CREATE EXTERNAL TABLE my_db.my_table (col1 string, ...)

前端之家
2022-08-11 • 问答
S3DistCp（AWS-EMR）-deleteOnSuccess选项在源存储桶上创建文件

我正在研究AWS-EMR集群，并添加了运行S3DISTCP（<a href="https://docs.aws.amazon.com/es_es/emr/latest/ReleaseGuide/UsingEMR_s

前端之家
2022-08-11 • 问答
使用Pyspark的AWS EMR Jupyterhub

我正在尝试使用Spark，Hadoop，Jupyterhub，HUE，Hive和Zookeeper创建一个EMR集群（v5.28.0）最初，当我使用

前端之家
2022-08-10 • 问答
从AWS s3将经过训练的xgboost分类器上传到EMR

我在S3中有一个训练有素的xgboost分类器对象，试图将其上传到Pyspark EMR笔记本中。我尝试过 <pr

前端之家
2022-08-10 • 问答
如何将javaagent传递给emr spark应用程序？

我正在尝试使用<a href="https://github.com/uber-common/jvm-profiler/blob/27e4227e7fef68656c70c95c82c969ae6baf497c/README.md" rel="n

前端之家
2022-08-10 • 问答
EMR 5.28无法在S3上加载镶木地板文件

在EMR集群5.28.0上，从s3读取镶木文件失败，但出现以下异常，而在EMR 5.18.0上，同样可以正常工作。以下

前端之家
2022-08-10 • 问答
无法在EMR中写入s3以获得NPE

有人看过吗？可怕的NPE，所以不知道是什么原因造成的。尝试通过EMR集群中的spark <code>.write.mode(Sa

前端之家
2022-08-10 • 问答
如何将Flink流作业提交给EMR？

我要在AWS EMR上运行的几个长期运行（流式）flink作业。我从AWS控制台或使用aws cli阅读了这样做的步骤。

前端之家
2022-08-09 • 问答
我需要在防火墙中允许什么协议才能从python连接到Apache Spark

我正在将python与pyspark配合使用，并使用spark上下文以便通过<a href="https://spark.apache.org/docs/0.8.0/spark-standalo

前端之家
2022-08-09 • 问答
如何允许pyspark在emr集群上运行代码

我们在pyspark api中使用python，以便在spark集群上运行简单的代码。 <pre><code>from pyspark import SparkContext,

前端之家
2022-08-09 • 问答
从S3中的EMR集群读取问题

我正在使用Java Spark开发应用程序。生成<code>.jar</code>并将其成功加载到EMR集群。代码的一行显示为：

前端之家
2022-08-09 • 问答
在AWS EMR上以yarn-client模式提交应用程序时的Spark版本

我有一个AWS EMR集群，我通过纱线客户端模式从单独的ec2机器提交了spark应用程序。我在EMR和驱动程序（

前端之家
2022-08-09 • 问答
使用Sqoop将表从AWS RDS移至AWS EMR的问题

我有一个使用Postgres的带有单个表的AWS RDS数据库。现在，我想将数据移至AWS EMR，以便可以使用Hadoop对其

前端之家
2022-08-09 • 问答
是否有任何AWS EMR Describe Cluster API节流限制，在哪里可以查看其指标？

我正在运行多个AWS EMR集群以进行各种大数据处理。我要监视<strong> AWS EMR描述群集API </strong>的使

前端之家
2022-08-09 • 问答