google-cloud-dataproc

使用pySpark和Cloud Storage过滤数百万个文件

我正面临以下任务：我将单个文件（例如Mb）存储在Google Cloud Storage Bucket中，并按日期在目录中分组（每

前端之家
2022-08-16 • 问答
如果一项作业失败，则受管Dataproc群集将终止所有作业

我正在尝试在托管DataProc集群上运行Pig作业。我有几个并行运行的独立养猪工作。我为每个作业都设置了

前端之家
2022-08-16 • 问答
从Spark / Dataproc将.txt文件写入GCS：如何仅写入一个大文件，而不是自动将其拆分成多个文件？

我使用Dataproc运行Pyspark脚本，该脚本将数据帧写入Google云端存储桶中的文本文件。当使用大数据运行脚

前端之家
2022-08-16 • 问答
将Python Google Firestore客户端与PySpark结合使用

我正在尝试使用PySpark执行Python脚本。但是，对工作至关重要的一个库是<a href="https://github.com/googleapis/goog

前端之家
2022-08-15 • 问答
如何在GCP中将jar依赖项添加到dataproc集群？

尤其是如何添加spark-bigquery-connector，以便可以从dataproc的Jupyter Web界面中查询数据？主要链接： -<a

前端之家
2022-08-15 • 问答
Google Dataproc群集属性

我希望获得有关这些属性是用于整个群集\每个节点还是两者结合的更多详细信息。对于<code>spark:spark.exec

前端之家
2022-08-15 • 问答
Dataproc Hadoop MapReduce-无法正常工作

我基本上是在尝试运行我的第一个Hadoop MapReduce例程，并且我必须使用Hadoop和MapReduce，因为我正在为一个

前端之家
2022-08-15 • 问答
如何使用特定服务帐户在Dataproc集群上提交作业？

我正在尝试在Dataproc集群中执行作业，以访问GCP的多种资源，例如Google Cloud Storage。我担心的是，

前端之家
2022-08-15 • 问答
Dataproc导入python模块存储在Google云存储（gcs）存储桶中

我在GCS存储桶上具有以下结构： <ol> <li> my_bucket /笔记本/ jupyter / <ul> <li>模块 <ul> <li> mymodule.py </li> <

前端之家
2022-08-15 • 问答
在Dataproc的集群中查找Hadoop Streaming Jar

所以我想在Dataproc集群上运行Python map reduce作业，问题是我找不到需要提交到Main类或jar输入中的Hadoop流jar

前端之家
2022-08-15 • 问答
在SparkSession

我在Google Cloud Dataproc上创建了一个3节点（1个主节点，2个工人）的Apache Spark集群。通过ssh与主服务器连

前端之家
2022-08-15 • 问答
对GCP Dataproc sofwareConfig值感到困惑

我正在尝试修改Airflow的dataproc运算符，以将Anaconda和Jupyter包括到集群中。我要覆盖<a href="https://git

前端之家
2022-08-15 • 问答
OOM错误-无法获取261244字节的内存，得到0

我正在尝试在数据处理上运行spark作业，该作业既是数据又是处理密集型作业，并且使OOM出现以下错误</p

前端之家
2022-08-14 • 问答
Google Cloud Dataproc无法使用--scopes = cloud-platform从cloudsql访问Hive Metastore

我创建了2个数据proc集群，要求使用1个配置单元元存储并且两个集群都可以访问。第一个是具有--scopes =

前端之家
2022-08-14 • 问答
在Google Cloud DataProc上安排cron作业

我目前有一个PySpark作业，该作业已部署在DataProc群集上（1个主节点和4个具有足够核心和内存的工作节点

前端之家
2022-08-14 • 问答
Jupyter Lab /笔记本无法打开

最近，我一直在使用JupyterLab在DataProc上托管的PySpark实例上工作。今天，我无法连接到我的实例。

前端之家
2022-08-13 • 问答
未加载Jupyter Notebook

我关注了文档：<a href="https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook" rel="nofollow noreferrer">https://cloud.

前端之家
2022-08-13 • 问答
GCP Dataproc并行步骤执行

我正在使用YAML文件中的工作流模板在GCP上创建dataproc集群。创建集群后，所有步骤都开始并行执行，但

前端之家
2022-08-12 • 问答
Elasticsearch至BigQuery管道部署在云数据融合实例上失败

我正在部署一个数据融合管道，该管道将从Elasticsearch的索引中获取数据并将该数据加载到bigQuery表中。

前端之家
2022-08-12 • 问答
Cloud Dataproc无法访问Cloud Storage存储桶

我有一个cloud dataproc Spark作业，该作业也使用了Drvier方面的Cloud Strage API（从同一文件夹中选择特定文件

前端之家
2022-08-12 • 问答
更改GCP DataProc群集的调度程序属性

当我运行使用Dataproc Cluster Web界面的Jupyter Notebook创建的PySpark代码时，我发现正在运行的代码并未使用主

前端之家
2022-08-11 • 问答
GCP Dataproc集群上的工作流计划

我有一些复杂的Oozie工作流程，可以从本地Hadoop迁移到GCP Dataproc。工作流程包括shell脚本，Python脚本，Spar

前端之家
2022-08-11 • 问答
Dataproc集群映像升级

由于我们的业务需求，我们必须使用静态的长期运行的持久性Dataproc集群。有什么方法可以升级Dataproc映

前端之家
2022-08-11 • 问答
如何将本地Hadoop配置精确地模拟为GCP Dataproc

Dataproc是GCP上的一种Apache-Hadoop De-Facto。我需要在集群配置方面进行一些说明。假设我使用本地Hadoop集群

前端之家
2022-08-11 • 问答
由于未注册Spark工作者而无法执行作业

当我尝试在GCP Dataproc集群上执行Spark SQL查询时，出现错误： <blockquote> 初始工作未接受任何资源

前端之家
2022-08-09 • 问答
设置Datafusion实例以连接安全的Dataproc集群

我们有一个安全的Dataproc集群，我们可以使用以下命令使用单个用户ID成功将SSH SSH到其中： <pre class="

前端之家
2022-08-09 • 问答
java.lang.NoSuchMethodError：org.apache.hive.common.util.ShutdownHookManager.addShutdownHook

我正在尝试使用Spark作为引擎类型在Kylin上构建多维数据集。该集群包含以下工具：操作系统映像

前端之家
2022-08-07 • 问答
BigQuery ELT（BQ-> BQ）-最佳做法

我知道这个问题每隔几个月就会再次提出，但是很难找到和比较GCP技术。当前，我们执行数据提

前端之家
2022-08-05 • 问答
带有气流上的DataprocOperator的组件网关

在GCP中，从UI或gcloud命令安装并运行<a href="https://cloud.google.com/dataproc/docs/tutorials/jupyter-notebook" rel="nofollow

前端之家
2022-08-02 • 问答
Kafka Listener无法正常工作！它在Intranet中是隔离的

我的Kafka节点托管在Google Cloud Dataproc中。但是，我们意识到通过默认初始化脚本安装的Kafka的设置方式仅

前端之家
2022-08-02 • 问答

首页

下一页
末页