-
带有Glue + S3的基于Spark成本的优化器
我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3 -
AWS Glue Crawler不追加数据
我创建了aws爬虫,该爬虫使用分类器将csv文件导入数据表。 哪个工作正常。 问题:每次搜寻器都 -
雅典娜(Athena)中的JSON数组读取不正确,无法取消嵌套
我有一个名为<code>uf</code>的列,其中包含JSON对象数组。这是一个样机: <pre><code>[ {"type":  -
从外部将AWS Glue数据目录中的数据提取到文本文件中
我正在编写一个python脚本,该脚本应读取AWS Glue数据目录中存在的元数据(仅模式)并将其写入文本文件 -
如何使用boto3
我正在尝试使用boto3更改由AWS Crawler创建的表名。这是代码: <pre class="lang-py prettyprint-override"><code>impo -
AWS Glue搜寻器未使用内置分类器为固定长度的文本文件创建表
我的数据文件如下: <pre><code>123 20180522 103122103957 123 20181004 101822106246 123 20160316 102635100963 123 20190605 10 -
AWS Glue / Hive无法识别所有CSV列
当前,我们有一个194列的csv系列(几个文件)。标头用引号引起来并用逗号分隔。我们正在使用OpenCSVSerd -
使用AWS Glue将firehose json拼花地板
我正在尝试在写入s3目标之前将firehose json转换为实木复合地板。儿子中的一个字段(<code>update_timestamp</co -
AWS Glue搜索选项
我目前正在使用AWS Glue数据目录来组织我的数据库。一旦建立了连接并发送了我的搜寻器来收集信息,就 -
向数据库列添加注释并从AWS Glue检索
我正在尝试将AWS GLUE数据目录合并到我正在构建的Data Lake中。我正在使用一些不同的数据库,并想将COMMEN -
AWS Glue定制搜寻器
我创建了一个AWS Glue搜寻器,以在Redshift数据库中收集信息。有没有一种方法可以自定义此搜寻器,以使 -
如何在AWS Glue中将单个列拆分为多个列
我在S3中有一个拼花文件,其中有一个特定的列,其中包含字典数据。 <strong>样本数据:</strong> </ -
我可以在Aws上使用terraform在Glue上为表名指定一个正则表达式吗?
我想应用以下Terraform <a href="https://www.terraform.io/docs/providers/aws/d/iam_policy_document.html" rel="nofollow noreferrer"><c -
如何在Glue作业中访问AWS Glue工作流的运行属性?
我一直在使用AWS Glue工作流程来编排批处理作业。 我们需要传递<a href="https://docs.aws.amazon.com/glue/latest/dg/a -
除胶水以外的AWS Athena目录
众所周知,AWS Athena与AWS Glue集成在一起用于数据目录。有什么方法可以将Athena配置为使用其他目录,例 -
来自外部REST API的AWS Glue作业消耗数据
我正在尝试创建一个工作流,其中AWS Glue ETL作业将从外部REST API而不是S3或任何其他AWS内部源中提取JSON数 -
无法读取Parquet支持的区分大小写的Glue表
火花版本:Amazon EMR 5.24.0上的2.4.2 我有一个由S3 Parquet目录支持的Glue Catalog表。 Parquet文件具有区分 -
从S3存储桶中在AWS Glue中对.tar文件进行编目
我在AWS S3存储桶中有一个文件“ v1.02_train.tar”(来自Lyft数据集<a href="https://level5.lyft.com/dataset/" rel="nofoll -
AWS Glue搜寻器:用于输入数据的不同架构
我在S3存储桶中有一个子文件夹,用于存储CSV文件。这些CSV文件都包含来自一个特定数据源的数据。数据 -
如何创建EMR集群AWS Glue数据目录设置?
<a href="https://i.stack.imgur.com/s8VcX.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/s8VcX.png" alt="enter image -
AWS Glue可以使用Web服务作为数据源吗
AWS提供S3,JDBC和DynamoDB作为数据分数。我可以添加REST端点作为数据源吗?如何构建从REST端点获取数据的 -
在AWS Glue数据目录中创建表
我有一堆DDL文件,我需要根据它们自动创建Glue表。 我的想法是用表描述创建CF文件。但是在这种情况下 -
创建或替换AWS Glue爬网程序
使用<a href="https://boto3.amazonaws.com/v1/documentation/api/latest/index.html" rel="nofollow noreferrer">boto3</a>: <ol> <li> -
雅典娜的数据计数不正确
我有一个<a href="https://i.stack.imgur.com/PeBPX.png" rel="nofollow noreferrer">the attached image</a>中所述的表格。 其数据 -
AWS Glue Crawler更新现有目录表的过程(很痛苦)缓慢
我一直在接收并存储多个<strong>未压缩</strong> JSON对象的提要,这些提要<strong>已分区</strong>到了一天, -
AWS Glue与Athena
我们处于一个阶段,正在将所有用Scala编写的Spark作业迁移到AWS胶水。 <strong>当前流量:</strong> Apa -
在S3 Glue DataCatalog Binlog复制中构建MySQL表的视图
好的,这就是我想要做的。在我公司中,我们需要卸载Aurora MySQL DB(非常大的数据库,很多表和很多负 -
aws胶搜寻器会创建多个表,如何将它们组合成一个表?
如果aws s3存储中有5个csv文件,其中一个文件的模式与其他4个文件略有不同,并且我有一个搜寻器为我创 -
如何从具有一个位置路径的多个文件夹创建多个表,并且雅典娜也应使用粘合爬虫对其进行处理
我尝试过这种方法未达到要求的结果- 我在s3存储桶的文件夹中有多个CSV文件,但是当它为它创建多个表 -
AWS Glue中的REST API作为数据源
我正在尝试从<strong> Rest API </strong>中读取数据并将其加载到RDS中的PostgreSQL数据库中。但是,我看不到直