打包不包含cloudera包裹的Pyspark应用程序

我习惯于在虚拟环境和requirements.txt文件中“传统”包装Python。随着诸如pipenv之类的工具的出现,这些模式甚至变得更加可用,这些工​​具可以将良好的需求固定在开发和生产需求(锁定文件)中。

我现在正在研究使用conda进行环境管理并将conda环境捆绑为cloudera软件包的构建过程。构建过程有点麻烦,我不喜欢它涉及大约3个堆栈,通过setuptools,Anaconda / Miniconda和Cloudera Parcels打包的核心python。

在搜索替代方案时,实际上很难找到任何信息,因为大多数信息被“入门”教程淹没了,而这些教程实际上并没有深入介绍将代码运送到Spark集群的详细信息。

我的问题是什么?

  • 是否可以在不依靠Anaconda的情况下将具有PySpark使用依赖关系的Python软件包捆绑在一起?
kaleiqi 回答:打包不包含cloudera包裹的Pyspark应用程序

暂时没有好的解决方案,如果你有好的解决方案,请发邮件至:iooj@foxmail.com
本文链接:https://www.f2er.com/3114073.html

大家都在问