-
使用pySpark和Cloud Storage过滤数百万个文件
我正面临以下任务:我将单个文件(例如Mb)存储在Google Cloud Storage Bucket中,并按日期在目录中分组(每 -
如果一项作业失败,则受管Dataproc群集将终止所有作业
我正在尝试在托管DataProc集群上运行Pig作业。我有几个并行运行的独立养猪工作。我为每个作业都设置了 -
从Spark / Dataproc将.txt文件写入GCS:如何仅写入一个大文件,而不是自动将其拆分成多个文件?
我使用Dataproc运行Pyspark脚本,该脚本将数据帧写入Google云端存储桶中的文本文件。当使用大数据运行脚 -
将Python Google Firestore客户端与PySpark结合使用
我正在尝试使用PySpark执行Python脚本。但是,对工作至关重要的一个库是<a href="https://github.com/googleapis/goog -
如何在GCP中将jar依赖项添加到dataproc集群?
尤其是如何添加spark-bigquery-connector,以便可以从dataproc的Jupyter Web界面中查询数据? 主要链接: -<a -
Google Dataproc群集属性
我希望获得有关这些属性是用于整个群集\每个节点还是两者结合的更多详细信息。对于<code>spark:spark.exec -
Dataproc Hadoop MapReduce-无法正常工作
我基本上是在尝试运行我的第一个Hadoop MapReduce例程,并且我必须使用Hadoop和MapReduce,因为我正在为一个 -
如何使用特定服务帐户在Dataproc集群上提交作业?
我正在尝试在Dataproc集群中执行作业,以访问GCP的多种资源,例如Google Cloud Storage。 我担心的是, -
Dataproc导入python模块存储在Google云存储(gcs)存储桶中
我在GCS存储桶上具有以下结构: <ol> <li> my_bucket /笔记本/ jupyter / <ul> <li>模块 <ul> <li> mymodule.py </li> < -
在Dataproc的集群中查找Hadoop Streaming Jar
所以我想在Dataproc集群上运行Python map reduce作业,问题是我找不到需要提交到Main类或jar输入中的Hadoop流jar -
在SparkSession
我在Google Cloud Dataproc上创建了一个3节点(1个主节点,2个工人)的Apache Spark集群。通过ssh与主服务器连 -
对GCP Dataproc sofwareConfig值感到困惑
我正在尝试修改Airflow的dataproc运算符,以将Anaconda和Jupyter包括到集群中。 我要覆盖<a href="https://git -
OOM错误-无法获取261244字节的内存,得到0
我正在尝试在数据处理上运行spark作业,该作业既是数据又是处理密集型作业,并且使OOM出现以下错误</p -
Google Cloud Dataproc无法使用--scopes = cloud-platform从cloudsql访问Hive Metastore
我创建了2个数据proc集群,要求使用1个配置单元元存储并且两个集群都可以访问。第一个是具有--scopes = -
在Google Cloud DataProc上安排cron作业
我目前有一个PySpark作业,该作业已部署在DataProc群集上(1个主节点和4个具有足够核心和内存的工作节点 -
Jupyter Lab /笔记本无法打开
最近,我一直在使用JupyterLab在DataProc上托管的PySpark实例上工作。今天,我无法连接到我的实例。 -
未加载Jupyter Notebook
我关注了文档:<a href="https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook" rel="nofollow noreferrer">https://cloud. -
GCP Dataproc并行步骤执行
我正在使用YAML文件中的工作流模板在GCP上创建dataproc集群。创建集群后,所有步骤都开始并行执行,但 -
Elasticsearch至BigQuery管道部署在云数据融合实例上失败
我正在部署一个数据融合管道,该管道将从Elasticsearch的索引中获取数据并将该数据加载到bigQuery表中。 -
Cloud Dataproc无法访问Cloud Storage存储桶
我有一个cloud dataproc Spark作业,该作业也使用了Drvier方面的Cloud Strage API(从同一文件夹中选择特定文件 -
更改GCP DataProc群集的调度程序属性
当我运行使用Dataproc Cluster Web界面的Jupyter Notebook创建的PySpark代码时,我发现正在运行的代码并未使用主 -
GCP Dataproc集群上的工作流计划
我有一些复杂的Oozie工作流程,可以从本地Hadoop迁移到GCP Dataproc。工作流程包括shell脚本,Python脚本,Spar -
Dataproc集群映像升级
由于我们的业务需求,我们必须使用静态的长期运行的持久性Dataproc集群。有什么方法可以升级Dataproc映 -
如何将本地Hadoop配置精确地模拟为GCP Dataproc
Dataproc是GCP上的一种Apache-Hadoop De-Facto。我需要在集群配置方面进行一些说明。假设我使用本地Hadoop集群 -
由于未注册Spark工作者而无法执行作业
当我尝试在GCP Dataproc集群上执行Spark SQL查询时,出现错误: <blockquote> 初始工作未接受任何资源 -
设置Datafusion实例以连接安全的Dataproc集群
我们有一个安全的Dataproc集群,我们可以使用以下命令使用单个用户ID成功将SSH SSH到其中: <pre class=" -
java.lang.NoSuchMethodError:org.apache.hive.common.util.ShutdownHookManager.addShutdownHook
我正在尝试使用Spark作为引擎类型在Kylin上构建多维数据集。该集群包含以下工具: 操作系统映像 -
BigQuery ELT(BQ-> BQ)-最佳做法
我知道这个问题每隔几个月就会再次提出,但是很难找到和比较GCP技术。 当前,我们执行数据提 -
带有气流上的DataprocOperator的组件网关
在GCP中,从UI或gcloud命令安装并运行<a href="https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook" rel="nofollow -
Kafka Listener无法正常工作!它在Intranet中是隔离的
我的Kafka节点托管在Google Cloud Dataproc中。但是,我们意识到通过默认初始化脚本安装的Kafka的设置方式仅