打包不包含cloudera包裹的Pyspark应用程序

2024-04-30 • 问答

我习惯于在虚拟环境和requirements.txt文件中“传统”包装Python。随着诸如pipenv之类的工具的出现，这些模式甚至变得更加可用，这些工具可以将良好的需求固定在开发和生产需求（锁定文件）中。

我现在正在研究使用conda进行环境管理并将conda环境捆绑为cloudera软件包的构建过程。构建过程有点麻烦，我不喜欢它涉及大约3个堆栈，通过setuptools，Anaconda / Miniconda和Cloudera Parcels打包的核心python。

在搜索替代方案时，实际上很难找到任何信息，因为大多数信息被“入门”教程淹没了，而这些教程实际上并没有深入介绍将代码运送到Spark集群的详细信息。

我的问题是什么？