我习惯于在虚拟环境和requirements.txt文件中“传统”包装Python。随着诸如pipenv之类的工具的出现,这些模式甚至变得更加可用,这些工具可以将良好的需求固定在开发和生产需求(锁定文件)中。
我现在正在研究使用conda进行环境管理并将conda环境捆绑为cloudera软件包的构建过程。构建过程有点麻烦,我不喜欢它涉及大约3个堆栈,通过setuptools,Anaconda / Miniconda和Cloudera Parcels打包的核心python。
在搜索替代方案时,实际上很难找到任何信息,因为大多数信息被“入门”教程淹没了,而这些教程实际上并没有深入介绍将代码运送到Spark集群的详细信息。
我的问题是什么?
- 是否可以在不依靠Anaconda的情况下将具有PySpark使用依赖关系的Python软件包捆绑在一起?