-
如何使用Google Dataflow Python按数据字段中的字段执行分区gsink(镶木地板)
我正在尝试从GS存储桶中读取数据,并将其输出到另一个GS存储桶(按自定义列,arrival_date划分)到另一 -
有没有一种方法可以在Beam的ParDo转换中创建用于写入Parquet文件的SpecificRecord列表?
我试图用Beam / Java编写Dataflow作业,以处理来自Pub / Sub并写入Parquet的一系列事件。 Pub / Sub中的事件采用JS -
如何在csv文件内容的多列上进行聚合(例如Sum,Avg等)?
我有一个CSV文件,其中包含多列(标识符和数字值)。我想对数字变量进行一些基础统计(我是Apache Beam -
如何从GCP存储桶读取Apache Beam中的多个文件
我正在尝试使用Apache Beam在GCP中的多个文件上读取并应用一些子设置。我准备了两个仅对一个文件有效的 -
数据流可以作为数据源连接到数据湖吗
我正在尝试将数据流(powerBI)连接到数据湖gen2以获取数据。我看不到连接器,有人知道该功能是否可用 -
Apache Beam DirectRunner与“常规”并行进程
我目前有一条在GCP上运行的管道。整个过程都是使用熊猫编写的,以操纵CSV并进行一些转换以及来自外 -
单引号的ADF数据流concat表达式
我需要使用Azure数据流表达式生成器生成SQL字符串,但不允许使用Concat函数在字符串之间添加单引号 -
在GCP数据流作业JAVA中创建BloomFilter
我有一些记录称为“ ID”(大约20亿行字符串)。我想在GCP数据流作业中基于这些ID创建一个BloomFilter。 -
Apache Beam on Python乘以beam.Map调用
我正在使用DataFlow处理管道,该管道必须执行以下操作: <ul> <li>从BigQuery中提取最后一个详细说明的 -
GCP-创建数据流(Pub / Sub->预测(ML模型)-> BigQuery / Firebase)
我是GCP的新手,我想为我的项目创建数据流。长话短说,我的设备将数据发送到Pub / Sub,然后,我想使 -
Apache Beam-PCollection <Object []>到PCollection <Object>
我有一个Json文件,其内容是每行一个对象数组,可以将Object []的PCollection转换为Object的PCollection吗? -
为什么Apache Beam中的CustomOptions不继承DataflowPipelineOptions的默认属性?
我是Apache Beam的新手,正在尝试使用DirectRunner和DataflowRunner运行示例读写程序。在我的用例中,CLI参数很 -
kafka connect-> pubsub->数据流管道数据丢失
我正在创建一个流数据管道,该数据流将数据从kafka集群流式传输到Google BQ。 目前,我正在将这些数据 -
如何以更可靠的方式获取执行的PHP源代码的行号
我正在尝试获取在该运行时实现的PHP源代码的行号。我使用了<code>__LINE__</code>函数,该函数返回根据我 -
Google云批处理数据流问题
当我打算使用apache beam和java使用批处理数据流从bigquery表中读取数据并将其写入另一个bigquery表中时。 -
为什么在数据流刷新期间显示此类网关错误
我已经建立了具有5个实体的数据流,并且还为最多两个重实体设置了增量刷新。数据网关也已正确设置 -
lvl 1数据流图中可以有两个(外部)实体吗?
正如里佩尔所说,我不确定您是否可以使用实体启动dfd,而您不会在上下文(lvl 0)图中显示它。 第一 -
gcloud beta数据流缺少有关参数的文档
当我尝试运行以下命令时: <pre><code>gcloud beta dataflow jobs run $JOB_NAME \ --region $GCP_REGION \ --gcs-location gs:/ -
Azure数据工厂映射数据流VS SSIS
这实际上不是编码问题,所以希望在这里问清楚,否则我将删除自己的帖子。 我们最近已经转移 -
在Azure数据工厂中复制增量数据中的数据流问题
我正在关注<a href="http://microsoft-bitools.blogspot.com/2019/05/azure-incremental-load-using-adf-data.html" rel="nofollow noreferre -
NiFi升级后,哪种方法可以最好地迁移DateFlow?
正如标题所示,在将Nifi-1.9.2升级到Nifi-1.10.0之后,我发现有三种迁移DF的方法如下: 1。使用模板< -
动态使用数据流处理多个表
我尝试使用<a href="http://microsoft-bitools.blogspot.com/2019/05/azure-incremental-load-using-adf-data.html" rel="nofollow noreferre -
什么是“数据流作业似乎被卡住了,因为在过去1小时内未看到任何工人活动”?
我的数据流作业是从Python的Apache_beam触发的。当运行程序为默认运行器时,此方法已运行,但当运行机为 -
AttributeError:无法获取属性“ FirestoreWriteDoFn”
当我尝试根据<a href="https://www.the-swamp.info/blog/uploading-data-firestore-using-dataflow/" rel="nofollow noreferrer">https://ww -
Apache Beam文件IO-注意文件修改
我有一个数据流组件,该组件监视文件夹中的新文件。除了发出新文件外,如果任何现有文件也被修改 -
我们能否使用GCP中项目A的项目B模板触发数据流作业(Apache Beam)
我正面临一个问题,需要同样的帮助。它与GCP数据流(Apache Beam)有关。 我在项目B中创建了一个Da -
Azure数据工厂集成运行时将无法启动
我遇到一个问题,即Azure Data Factory Integration运行时无法启动。 当我触发管道时,我在Monitor中收到 -
在DataFlow中用名称文件的子字符串字段
我想用文件名命名一个列名ManagingCountryCode,该列仅存在于我的输出(BD)中 我试图做一个这样的子字符 -
Beam ElasticseachIO:如何不基于文档本身覆盖文档索引?
我正在研究Apache Beam流管道,以实现从Google PubSub主题到ElasticSearch的简单桥梁。 ElasticSearch文档将创建为 -
scdf shell失败,并带有keycloak
作为我的用户,我想使用Shell jar部署流。 我正在使用keycloak进行安全性运行,并且在参考文档后,我认