aws-glue

AWS Glue术语“作业”，“作业运行”和“触发器”是什么？

我是一家IT公司的实习生，并将被分配到与AWS Glue相关的项目。我正在研究它的工作方式，用例等。但是

前端之家
2022-08-16 • 问答
AWS Glue-将fileld添加到结构字段

我有一个在AWS Glue中定义的表。我使用AWS Kinesis流使用此表定义（使用木地板文件格式）将日志流式传输

前端之家
2022-08-16 • 问答
带有Glue + S3的基于Spark成本的优化器

我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3

前端之家
2022-08-16 • 问答
即使禁用书签，AWS Glue书签错误

我有一个AWS Glue Python作业，可在不再需要它们时将数据从MySQL加载到S3文件中。该工作被禁用了书

前端之家
2022-08-16 • 问答
AWS Glue Crawler不追加数据

我创建了aws爬虫，该爬虫使用分类器将csv文件导入数据表。哪个工作正常。问题：每次搜寻器都

前端之家
2022-08-16 • 问答
如何从S3存储桶中读取最后修改的csv文件？

我来找您是否有专业技巧，可以将由Glue作业生成的最新csv文件加载到S3存储桶中，以加载到jupyter笔记本

前端之家
2022-08-16 • 问答
如何在cloudfromation模板中生成并插入ssh公钥定义？

我已经通过亚马逊网络控制台生成了ssh密钥。但是如何使用它来创建胶水开发者端点？请考虑以

前端之家
2022-08-16 • 问答
如何将IntelliJ IDEA连接到端点？

我已经创建了胶水开发人员端点，但是不知道如何将intellij idea zeppelin笔记本附加到它？这是开发

前端之家
2022-08-16 • 问答
在Docker中运行Spark历史记录服务器以查看AWS Glue作业

我已将AWS Glue设置为输出Spark事件日志，以便可以将其导入Spark History Server。 AWS为此提供了<a href="https://do

前端之家
2022-08-16 • 问答
Python AWS Glue日志针对上传的python zip包说“将不带前缀的文件视为python额外文件”

在AWS Glue中，完成一个简单的熊猫工作，即在XLSX中读取数据并写入CSV。我有一个小代码。按照Python Glue的

前端之家
2022-08-16 • 问答
使用键[Glue]

我想在第一次写入之前手动定义Redshift表。这是因为我想在定义的列上使用<code>distkey</code>和<code>sortkey</c

前端之家
2022-08-16 • 问答
AWS Glue-将列更改为类型数组或结构

我最近开始使用AWS Glue来读取S3上的一些文件。花了很多时间来获取正确的搜寻器之后，我有了三

前端之家
2022-08-16 • 问答
Pyspark作业可能的资源限制问题

我正在用aws进行胶水作业。它基本上在aws胶工作中运行pyspark代码。这项工作会连接到几个ec2实例。对于

前端之家
2022-08-16 • 问答
Gzip文件压缩和boto3

我是使用boto3的初学者，我想压缩s3存储桶中的文件而不将其下载到本地笔记本电脑中。应该是流式压缩

前端之家
2022-08-16 • 问答
使用boto3创建粘合作业时指定作业类型

我正在尝试创建胶水etl作业。我正在使用boto3。我正在使用以下脚本。我想将其创建为type = Spark，但是下

前端之家
2022-08-16 • 问答
将Parquet数据保存到S3中，然后在雅典娜中创建表，从而为int unsigned带来了空值，

我基于RDS数据库用胶水创建了一个数据目录。然后，我创建了一个作业，以将单个表转换为拼花格式的s3

前端之家
2022-08-16 • 问答
无法从lamda运行gumCrawler（com.amazonaws.services.glue.model.AWSGlueException：null）

我正在尝试从lamda运行gumCrawler，但我得到 <pre><code>2019-11-07 13:23:12 [main] ERROR com.zuzu.historicalbookings.servi

前端之家
2022-08-16 • 问答
雅典娜（Athena）中的JSON数组读取不正确，无法取消嵌套

我有一个名为<code>uf</code>的列，其中包含JSON对象数组。这是一个样机： <pre><code>[ {"type": &#3

前端之家
2022-08-15 • 问答
我们可以在单次运行中写入并稍后读取带有最新数据的同一表吗？

<pre><code>1.read table A from SRC 2.perform CDC & write A to TGT 3.read table B from SRC 4.read table A from TGT 5.B_new =join of A &am

前端之家
2022-08-15 • 问答
AWS GlueContext未初始化

我不熟悉AWS和胶水服务，试图与pycharm一起使用，并且有一个python类从S3位置读取数据，效果很好。 python

前端之家
2022-08-15 • 问答
如何定义嵌套数组以提取数据并进行转换？

我正在使用Firehose和Glue提取数据并将JSON转换为S3中的镶木地板文件。我成功使用普通的JSON（非嵌

前端之家
2022-08-15 • 问答
G.2X工作者类型序列化结果的总大小大于spark.driver.maxResultSize

我正在执行etl作业，试图转换大约40GB的数据并将其保存到S3存储桶中。我使用的是G.2X工作程序类型，因

前端之家
2022-08-15 • 问答
从外部将AWS Glue数据目录中的数据提取到文本文件中

我正在编写一个python脚本，该脚本应读取AWS Glue数据目录中存在的元数据（仅模式）并将其写入文本文件

前端之家
2022-08-15 • 问答
将胶水pypspark错误写入文本文件

我正在尝试在代码中添加一些错误处理。我在AWS胶水作业中运行pyspark代码。我想做的是在出现错误时创

前端之家
2022-08-15 • 问答
在AWS动态数据框架中添加列步骤1 步骤2 步骤3

我对AWS Glue非常陌生。我正在做一个小项目，要问的是从S3存储桶中读取文件，将其转置并将其加载到mysq

前端之家
2022-08-15 • 问答
如何将runId传递给lambda的工作流触发的粘合作业？（蟒蛇）

目前，我知道，如果您使用<code>start_job_run()</code>直接触发参数，则可以将参数直接传递给胶粘作业。但

前端之家
2022-08-15 • 问答
如何在AWS Glue中使用JDBC连接来连接SQLServer

在提供JDBC URL格式后，我想使用JDBC连接选项将数据从Glue加载到SQL Server中 <pre><code>jdbc:sqlserver://host:por

前端之家
2022-08-15 • 问答
如何为Zeppelin笔记本电脑（PySpark / Glue）正确设置作业参数

我希望能够像通常在粘合作业中一样从sys.argv中检索值，例如： <pre><code>args = getResolvedOptions(sys.argv, [

前端之家
2022-08-15 • 问答
AWS Glue搜寻器未使用内置分类器为固定长度的文本文件创建表

我的数据文件如下： <pre><code>123 20180522 103122103957 123 20181004 101822106246 123 20160316 102635100963 123 20190605 10

前端之家
2022-08-14 • 问答
AWS Glue Cloudformation排除模式排除：字符串

我已经在AWS控制台上成功设置了粘合爬虫。现在，我有了一个Cloudformation模板来模拟整个过程，除了无

前端之家
2022-08-14 • 问答

首页

下一页
末页