aws-glue-data-catalog

带有Glue + S3的基于Spark成本的优化器

我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3

前端之家
2022-08-16 • 问答
AWS Glue Crawler不追加数据

我创建了aws爬虫，该爬虫使用分类器将csv文件导入数据表。哪个工作正常。问题：每次搜寻器都

前端之家
2022-08-16 • 问答
雅典娜（Athena）中的JSON数组读取不正确，无法取消嵌套

我有一个名为<code>uf</code>的列，其中包含JSON对象数组。这是一个样机： <pre><code>[ {"type": &#3

前端之家
2022-08-15 • 问答
从外部将AWS Glue数据目录中的数据提取到文本文件中

我正在编写一个python脚本，该脚本应读取AWS Glue数据目录中存在的元数据（仅模式）并将其写入文本文件

前端之家
2022-08-15 • 问答
如何使用boto3

我正在尝试使用boto3更改由AWS Crawler创建的表名。这是代码： <pre class="lang-py prettyprint-override"><code>impo

前端之家
2022-08-15 • 问答
AWS Glue搜寻器未使用内置分类器为固定长度的文本文件创建表

我的数据文件如下： <pre><code>123 20180522 103122103957 123 20181004 101822106246 123 20160316 102635100963 123 20190605 10

前端之家
2022-08-14 • 问答
AWS Glue / Hive无法识别所有CSV列

当前，我们有一个194列的csv系列（几个文件）。标头用引号引起来并用逗号分隔。我们正在使用OpenCSVSerd

前端之家
2022-08-14 • 问答
使用AWS Glue将firehose json拼花地板

我正在尝试在写入s3目标之前将firehose json转换为实木复合地板。儿子中的一个字段（<code>update_timestamp</co

前端之家
2022-08-13 • 问答
AWS Glue搜索选项

我目前正在使用AWS Glue数据目录来组织我的数据库。一旦建立了连接并发送了我的搜寻器来收集信息，就

前端之家
2022-08-12 • 问答
向数据库列添加注释并从AWS Glue检索

我正在尝试将AWS GLUE数据目录合并到我正在构建的Data Lake中。我正在使用一些不同的数据库，并想将COMMEN

前端之家
2022-08-11 • 问答
AWS Glue定制搜寻器

我创建了一个AWS Glue搜寻器，以在Redshift数据库中收集信息。有没有一种方法可以自定义此搜寻器，以使

前端之家
2022-08-10 • 问答
如何在AWS Glue中将单个列拆分为多个列

我在S3中有一个拼花文件，其中有一个特定的列，其中包含字典数据。 样本数据： </

前端之家
2022-08-08 • 问答
我可以在Aws上使用terraform在Glue上为表名指定一个正则表达式吗？

我想应用以下Terraform <a href="https://www.terraform.io/docs/providers/aws/d/iam_policy_document.html" rel="nofollow noreferrer"><c

前端之家
2022-08-07 • 问答
如何在Glue作业中访问AWS Glue工作流的运行属性？

我一直在使用AWS Glue工作流程来编排批处理作业。我们需要传递<a href="https://docs.aws.amazon.com/glue/latest/dg/a

前端之家
2022-08-02 • 问答
除胶水以外的AWS Athena目录

众所周知，AWS Athena与AWS Glue集成在一起用于数据目录。有什么方法可以将Athena配置为使用其他目录，例

前端之家
2022-08-01 • 问答
来自外部REST API的AWS Glue作业消耗数据

我正在尝试创建一个工作流，其中AWS Glue ETL作业将从外部REST API而不是S3或任何其他AWS内部源中提取JSON数

前端之家
2022-07-30 • 问答
无法读取Parquet支持的区分大小写的Glue表

火花版本：Amazon EMR 5.24.0上的2.4.2 我有一个由S3 Parquet目录支持的Glue Catalog表。 Parquet文件具有区分

前端之家
2022-07-28 • 问答
从S3存储桶中在AWS Glue中对.tar文件进行编目

我在AWS S3存储桶中有一个文件“ v1.02_train.tar”（来自Lyft数据集<a href="https://level5.lyft.com/dataset/" rel="nofoll

前端之家
2022-07-26 • 问答
AWS Glue搜寻器：用于输入数据的不同架构

我在S3存储桶中有一个子文件夹，用于存储CSV文件。这些CSV文件都包含来自一个特定数据源的数据。数据

前端之家
2022-07-25 • 问答
如何创建EMR集群AWS Glue数据目录设置？

<a href="https://i.stack.imgur.com/s8VcX.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/s8VcX.png" alt="enter image

前端之家
2022-07-24 • 问答
AWS Glue可以使用Web服务作为数据源吗

AWS提供S3，JDBC和DynamoDB作为数据分数。我可以添加REST端点作为数据源吗？如何构建从REST端点获取数据的

前端之家
2022-07-22 • 问答
在AWS Glue数据目录中创建表

我有一堆DDL文件，我需要根据它们自动创建Glue表。我的想法是用表描述创建CF文件。但是在这种情况下

前端之家
2022-07-22 • 问答
创建或替换AWS Glue爬网程序

使用<a href="https://boto3.amazonaws.com/v1/documentation/api/latest/index.html" rel="nofollow noreferrer">boto3</a>： <ol> <li>

前端之家
2022-07-20 • 问答
雅典娜的数据计数不正确

我有一个<a href="https://i.stack.imgur.com/PeBPX.png" rel="nofollow noreferrer">the attached image</a>中所述的表格。其数据

前端之家
2022-07-19 • 问答
AWS Glue Crawler更新现有目录表的过程（很痛苦）缓慢

我一直在接收并存储多个未压缩 JSON对象的提要，这些提要已分区到了一天，

前端之家
2022-07-19 • 问答
AWS Glue与Athena

我们处于一个阶段，正在将所有用Scala编写的Spark作业迁移到AWS胶水。 当前流量： Apa

前端之家
2022-07-17 • 问答
在S3 Glue DataCatalog Binlog复制中构建MySQL表的视图

好的，这就是我想要做的。在我公司中，我们需要卸载Aurora MySQL DB（非常大的数据库，很多表和很多负

前端之家
2022-07-17 • 问答
aws胶搜寻器会创建多个表，如何将它们组合成一个表？

如果aws s3存储中有5个csv文件，其中一个文件的模式与其他4个文件略有不同，并且我有一个搜寻器为我创

前端之家
2022-07-17 • 问答
如何从具有一个位置路径的多个文件夹创建多个表，并且雅典娜也应使用粘合爬虫对其进行处理

我尝试过这种方法未达到要求的结果- 我在s3存储桶的文件夹中有多个CSV文件，但是当它为它创建多个表

前端之家
2022-07-16 • 问答
AWS Glue中的REST API作为数据源

我正在尝试从 Rest API 中读取数据并将其加载到RDS中的PostgreSQL数据库中。但是，我看不到直

前端之家
2022-07-14 • 问答

首页

下一页
末页