aws-glue

通过避免生成空的$ folders，有没有一种方法可以使用AWS Glue作业在AWS S3中输出实木复合地板文件

<pre class="lang-py prettyprint-override"><code>df.write.option("header", "true")\ .option("quoteMode", &#34

前端之家
2022-08-14 • 问答
适用于多分隔符的AWS Glue分类器不起作用

我正在尝试对位于|〜|的s3中的CSV文件运行搜寻器。是分隔符。我给定界符如下： <a href="https://i.st

前端之家
2022-08-14 • 问答
AWS Glue Spark用户界面

我正在使用<a href="https://docs.aws.amazon.com/en_pv/glue/latest/dg/monitor-spark-ui-history.html" rel="nofollow noreferrer">https:/

前端之家
2022-08-14 • 问答
有没有一种方法可以使用Spark使用TLS在FTP中加载文件

我正在将python进程移至Spark。在python中，我们使用ftplib连接并下载文件到EC2实例。下载文件后，我们将上

前端之家
2022-08-14 • 问答
AWS Glue / Hive无法识别所有CSV列

当前，我们有一个194列的csv系列（几个文件）。标头用引号引起来并用逗号分隔。我们正在使用OpenCSVSerd

前端之家
2022-08-14 • 问答
如何查看AWS Glue Spark UI

在我的Glue作业中，我已启用Spark UI并指定了Spark UI工作所需的所有必要详细信息（与s3相关的信息。）。

前端之家
2022-08-14 • 问答
在AWS Glue中进行联接操作后，删除具有相同名称的重复字段

当我在两个DynamicFrame上执行联接时，比较具有相同名称的字段，结果DynamicFrame保留两个字段，但保留一

前端之家
2022-08-13 • 问答
如何从S3存储桶中删除由Glue Job填充的重复值

我有一个Glue作业，可将数据从dynamoDB导出到S3。但是我没有启用任何Glue Job书签。现在，当我在Athe

前端之家
2022-08-13 • 问答
如何在本地运行胶水作业？

我有<a href="https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-libraries.html#develop-local-scala" rel="nofollow nore

前端之家
2022-08-13 • 问答
AWS Glue-确保s3存储桶中只有1个输出文件

我们有一个aws胶工作，它将数据从rds复制到s3。现在，无论何时运行此作业，它都会在我们的s3存储桶中

前端之家
2022-08-13 • 问答
适用于多行数据的AWS Spectrum vs Athena正确的JSON格式

嘿，我正在尝试使用AWS Spectrum摄取/查询一些JSON数据。我创建了一个json，其格式如下（每行一行

前端之家
2022-08-13 • 问答
AWS Glue脚本（spark shell），用于基于层次结构分配唯一的密钥

我有以下要求基于数据中存在的层次结构来生成唯一密钥。我的输入数据和所需的输出如下所示

前端之家
2022-08-13 • 问答
胶水是否使用S3或HDFS？

我将文件存储在S3中，并使用AWS Glue处理它们。融合无服务器技术，它可以在后台管理不需要的Hadoop集群

前端之家
2022-08-13 • 问答
Amazon Athena表创建问题

我在雅典娜有一张桌子，桌子上有S3作为来源。其中一个表列“ Col1”的数据类型为字符串。 <

前端之家
2022-08-13 • 问答
将Spark数据框转换为AWS胶动态框

我尝试将spark数据帧转换为动态数据，然后以胶粘木地板文件的形式输出，但出现错误 <blockquote> <

前端之家
2022-08-13 • 问答
将定界符更改为AWS Data Pipeline中的管道

我正在使用AWS Data Pipeline将我的数据从RDS复制到Redshift。数据管道会使用默认定界符<code>,</code>为数据库

前端之家
2022-08-13 • 问答
无法在CloudWatch中查看gel.driver.aggregate指标

我正在运行一个简单的Glue作业，该作业将从s3存储桶中读取一个csv文件，并将其转换为JSON后写入另一个s

前端之家
2022-08-13 • 问答
使用AWS Glue将firehose json拼花地板

我正在尝试在写入s3目标之前将firehose json转换为实木复合地板。儿子中的一个字段（<code>update_timestamp</co

前端之家
2022-08-13 • 问答
pyspark中的AWS胶粘ETL作业可根据年列将1个CSV文件拆分为多个CSV文件

我在S3存储桶中有一个CSV文件，并且CSV文件中的一列是年份（1961、1962，...，2017）。我需要编写一个胶

前端之家
2022-08-13 • 问答
是否可以在AWS Glue中将多个--conf设置为工作参数？

我正在尝试在我的胶水作业中配置火花。当我尝试在“编辑作业”，“作业参数”中分别作为键和赋值

前端之家
2022-08-12 • 问答
适用于AWS Glue的CI / CD管道

我是AWS Glue的新用户，AWS Glue是一种新的AWS托管服务，可轻松协调批处理作业工作流。 <ul> <li>我有3个

前端之家
2022-08-12 • 问答
用胶水作业写入s3的最快方法是什么？（从dynamicframe写入csv / parquet）

我当前的问题是，从动态文件中的小文件写入s3会花费很多时间（100,000行带有100列的csv需要一个多小时

前端之家
2022-08-12 • 问答
如何检索AWS ETL作业的来源，目标信息

AWS Glue ETL作业将是一个python / scala脚本作业，它将连接到源，检索数据并应用转换逻辑并将数据加载到

前端之家
2022-08-12 • 问答
AWS Glue搜索选项

我目前正在使用AWS Glue数据目录来组织我的数据库。一旦建立了连接并发送了我的搜寻器来收集信息，就

前端之家
2022-08-12 • 问答
根据文档，胶水与熊猫一起工作

基于<a href="https://docs.aws.amazon.com/glue/latest/dg/add-job-python.html#python-shell-supported-library" rel="nofollow noreferrer">d

前端之家
2022-08-12 • 问答
如何加快Amazon Athena查询的执行速度？

我正在使用Athena Query Execution从胶水表中检索数据。抓取工具每小时使用S3桶更新此表，该桶由Kinesis Fireh

前端之家
2022-08-12 • 问答
使用Scala中的AWS Glue在S3中加载CSV文件

这应该很容易... 对于我的AWS Glue作业，我想从S3上的CSV文件加载配置设置。这样，我的lambda函数可以触发

前端之家
2022-08-12 • 问答
通过S3 Athena按名称连接文件

我正在尝试让S3 Athena从两个S3存储桶中的两个文件中读取数据。输入记录如下： <pre><code>{ &

前端之家
2022-08-12 • 问答
如何在AWS Glue中正确重命名动态数据框的列？

我加载JSON数据，并在动态数据框上使用Relationalize方法展平原本嵌套的JSON对象，并将其保存为镶木地板

前端之家
2022-08-12 • 问答
如何刷新雅典娜景观？

我在雅典娜有一张桌子。新数据被添加到S3，当我运行Select语句时，这将提供更新的结果。我已经在该sel

前端之家
2022-08-12 • 问答