在EMR中安排笔记本并发布AWS库

AWS EMR存在一些问题。我们正在尝试创建一个非常简单的数据管道。 我们的过程通常是进行一些API调用,解析这些API调用的响应(json模式),并确定是否需要其他调用。数据将保存到S3存储桶,我们可以运行PySpark作业来操纵从多个API提取的各种数据,以创建一个最终的联接/清除视图。

我们面临的AWS EMR挑战: 1)是否可以安排笔记本定期运行或每天运行一次?我们设想将启动EMR集群,并介绍如何运行Python作业和PySpark作业。完成后,终止集群 2)我们面临无法安装pip的问题,如果尝试使用请求库(在python笔记本而不是pyspark笔记本上)执行http get请求,则不会返回任何内容。好像笔记本没有互联网连接,或者尝试发出请求时遇到问题。

import requests
r = request.get('http://www.google.com')
ljy030220115 回答:在EMR中安排笔记本并发布AWS库

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3080437.html

大家都在问