-
AWS Glue术语“作业”,“作业运行”和“触发器”是什么?
我是一家IT公司的实习生,并将被分配到与AWS Glue相关的项目。我正在研究它的工作方式,用例等。但是 -
AWS Glue-将fileld添加到结构字段
我有一个在AWS Glue中定义的表。我使用AWS Kinesis流使用此表定义(使用木地板文件格式)将日志流式传输 -
带有Glue + S3的基于Spark成本的优化器
我有在EMR群集上运行的Spark作业。 EMR使用AWS Glue作为Hive元存储。作业通过拼写格式通过EMRFS将数据写入S3 -
即使禁用书签,AWS Glue书签错误
我有一个AWS Glue Python作业,可在不再需要它们时将数据从MySQL加载到S3文件中。 该工作被禁用了书 -
AWS Glue Crawler不追加数据
我创建了aws爬虫,该爬虫使用分类器将csv文件导入数据表。 哪个工作正常。 问题:每次搜寻器都 -
如何从S3存储桶中读取最后修改的csv文件?
我来找您是否有专业技巧,可以将由Glue作业生成的最新csv文件加载到S3存储桶中,以加载到jupyter笔记本 -
如何在cloudfromation模板中生成并插入ssh公钥定义?
我已经通过亚马逊网络控制台生成了ssh密钥。但是如何使用它来创建胶水开发者端点? 请考虑以 -
如何将IntelliJ IDEA连接到端点?
我已经创建了胶水开发人员端点,但是不知道如何将intellij idea zeppelin笔记本附加到它? 这是开发 -
在Docker中运行Spark历史记录服务器以查看AWS Glue作业
我已将AWS Glue设置为输出Spark事件日志,以便可以将其导入Spark History Server。 AWS为此提供了<a href="https://do -
Python AWS Glue日志针对上传的python zip包说“将不带前缀的文件视为python额外文件”
在AWS Glue中,完成一个简单的熊猫工作,即在XLSX中读取数据并写入CSV。我有一个小代码。按照Python Glue的 -
使用键[Glue]
我想在第一次写入之前手动定义Redshift表。这是因为我想在定义的列上使用<code>distkey</code>和<code>sortkey</c -
AWS Glue-将列更改为类型数组或结构
我最近开始使用AWS Glue来读取S3上的一些文件。 花了很多时间来获取正确的搜寻器之后,我有了三 -
Pyspark作业可能的资源限制问题
我正在用aws进行胶水作业。它基本上在aws胶工作中运行pyspark代码。这项工作会连接到几个ec2实例。对于 -
Gzip文件压缩和boto3
我是使用boto3的初学者,我想压缩s3存储桶中的文件而不将其下载到本地笔记本电脑中。应该是流式压缩 -
使用boto3创建粘合作业时指定作业类型
我正在尝试创建胶水etl作业。我正在使用boto3。我正在使用以下脚本。我想将其创建为type = Spark,但是下 -
将Parquet数据保存到S3中,然后在雅典娜中创建表,从而为int unsigned带来了空值,
我基于RDS数据库用胶水创建了一个数据目录。然后,我创建了一个作业,以将单个表转换为拼花格式的s3 -
无法从lamda运行gumCrawler(com.amazonaws.services.glue.model.AWSGlueException:null)
我正在尝试从lamda运行gumCrawler,但我得到 <pre><code>2019-11-07 13:23:12 [main] ERROR com.zuzu.historicalbookings.servi -
雅典娜(Athena)中的JSON数组读取不正确,无法取消嵌套
我有一个名为<code>uf</code>的列,其中包含JSON对象数组。这是一个样机: <pre><code>[ {"type":  -
我们可以在单次运行中写入并稍后读取带有最新数据的同一表吗?
<pre><code>1.read table A from SRC 2.perform CDC & write A to TGT 3.read table B from SRC 4.read table A from TGT 5.B_new =join of A &am -
AWS GlueContext未初始化
我不熟悉AWS和胶水服务,试图与pycharm一起使用,并且有一个python类从S3位置读取数据,效果很好。 python -
如何定义嵌套数组以提取数据并进行转换?
我正在使用Firehose和Glue提取数据并将JSON转换为S3中的镶木地板文件。 我成功使用普通的JSON(非嵌 -
G.2X工作者类型序列化结果的总大小大于spark.driver.maxResultSize
我正在执行etl作业,试图转换大约40GB的数据并将其保存到S3存储桶中。我使用的是G.2X工作程序类型,因 -
从外部将AWS Glue数据目录中的数据提取到文本文件中
我正在编写一个python脚本,该脚本应读取AWS Glue数据目录中存在的元数据(仅模式)并将其写入文本文件 -
将胶水pypspark错误写入文本文件
我正在尝试在代码中添加一些错误处理。我在AWS胶水作业中运行pyspark代码。我想做的是在出现错误时创 -
在AWS动态数据框架中添加列 步骤1 步骤2 步骤3
我对AWS Glue非常陌生。我正在做一个小项目,要问的是从S3存储桶中读取文件,将其转置并将其加载到mysq -
如何将runId传递给lambda的工作流触发的粘合作业? (蟒蛇)
目前,我知道,如果您使用<code>start_job_run()</code>直接触发参数,则可以将参数直接传递给胶粘作业。但 -
如何在AWS Glue中使用JDBC连接来连接SQLServer
在提供JDBC URL格式后,我想使用JDBC连接选项将数据从Glue加载到SQL Server中 <pre><code>jdbc:sqlserver://host:por -
如何为Zeppelin笔记本电脑(PySpark / Glue)正确设置作业参数
我希望能够像通常在粘合作业中一样从sys.argv中检索值,例如: <pre><code>args = getResolvedOptions(sys.argv, [ -
AWS Glue搜寻器未使用内置分类器为固定长度的文本文件创建表
我的数据文件如下: <pre><code>123 20180522 103122103957 123 20181004 101822106246 123 20160316 102635100963 123 20190605 10 -
AWS Glue Cloudformation排除模式排除:字符串
我已经在AWS控制台上成功设置了粘合爬虫。 现在,我有了一个Cloudformation模板来模拟整个过程,除了无