-
如何使用Google Dataflow Python按数据字段中的字段执行分区gsink(镶木地板)
我正在尝试从GS存储桶中读取数据,并将其输出到另一个GS存储桶(按自定义列,arrival_date划分)到另一 -
数据流:流式传输流式的Windmill RPC错误
我的波束数据流尝试从GCS读取数据并将数据写入Pub / Sub。 但是,管道挂起并出现以下错误 <pre> -
如何使用BigQuery和Apache Beam将SQL表转换为行序列列表?
我有一个很大的表,其中每一行代表一个称为Trip的抽象。行程由数字列组成,例如车辆ID,行程ID,开始 -
运行光束管道时,“ PBegin”对象没有属性“ windowing”
在运行数据流作业时,我得到“ PBegin”对象没有“ windowing”属性。 我在pardo函数中调用connectclass类。</p -
收到错误“模板参数无效。”从Composer启动dataprep模板时
我正在使用以下代码: ================================================ <pre><code>from datetime import timedelta, -
如何在我在Google Dataflow上写Beam管道的地方运行.jar文件?
我用Apache Beam管道(用Java编写)编写了一个.jar文件,该文件要运行Google Dataflow。我把它装进了水桶。当 -
从DynamoDB迁移到Spanner / BigTable
我有一个用例,需要将70 TB的数据从DynamoDB迁移到BigTable和Spanner。具有单个索引的表将进入BigTable,否则 -
成功的数据流管道通过Airflow中的PythonVirtualenvOperator运行了多次
我正在运行一个Apache Beam管道(与Google Dataflow一起部署),该管道正在与Apache Airflow协调。 DAG文 -
有没有一种方法可以在Beam的ParDo转换中创建用于写入Parquet文件的SpecificRecord列表?
我试图用Beam / Java编写Dataflow作业,以处理来自Pub / Sub并写入Parquet的一系列事件。 Pub / Sub中的事件采用JS -
将新数据加载到BigQuery时,是否有任何方法可以自动触发Dataflow作业(将数据从BigQuery传输到MySQL)?
我正在寻找BigQuery表收到新数据时自动触发数据流作业的解决方案? 不想创建要继续在表中查找 -
几个小时后,Google Cloud DataFlow作业会发出警报
使用2.11.0版本运行DataFlow流作业。 几个小时后,我收到以下身份验证错误: <pre class="lang-py prettyprint- -
当第一个包含某个事件的时间范围和第二个时间戳时,如何联接两个PCollection?
我有一个用Dataflow编写的批处理管道。我想在数据上实现以下联接。 我有两个PCollection。首先是代 -
读取或写入主题时记录错误消息
在读取或写入主题时如何记录错误消息。我们将使用Apache Beam API读取或写入主题。因此,我生成了任何 -
如何从数据流Pardo(DoFn)中提取值并将其写入gcs位置
我遇到了在数据流作业中读取pubsub发布的json消息的情况。然后在ParDo中解析每个元素,并使用前4个键在G -
从AINotebook / Jupyter运行的Apache Beam / GCP数据流
我们最近将基础结构迁移到了GCP,我们热衷于将<em> DataProc </em>(Spark)和<em> DataFlow </em>(Apache Beam)用 -
数据流中的Avro模式演变
我们正在测试用于Avro模式演变的数据流。<br/> 输出将写入Avro文件,并且需要处理架构更改。我们尝试使 -
Google DataFlow示例:Wordcount执行中的异常
我正在尝试在eclipse中执行Google DataFlow WordCount示例,但是当我运行时,我遇到下一个错误,有人可以帮我 -
调用Google数据流RestApi时出现间歇性401未经身份验证的问题
需要使用Google Rest API以编程方式从Streaming数据流加速批量数据流。 为此,我们使用了Java实现。 当流数 -
GCP数据流与云功能
我有一个现有系统,其中数据发布到Pub / Sub主题,由云功能订阅者读取,并推送到Big Query进行存储(订 -
Apache Beam Python SDK版本上的Wait.On()
我在Python上使用Apache Beam,想问一下python SDK上的Apache Beam Java <code>Wait.on()</code>等同于什么? 目前 -
使用模式自动检测将数据流作业写入BigQuery
当前,我们正在寻找将原始数据转换为通用结构以进行进一步分析的最佳方法。我们的数据是JSON文件, -
Google数据流作业在writeToBiqquery步骤上失败:“列表”对象和“ str”对象没有属性“ items”
我有一个使用数据流运行器运行的光束管道。它接受XML并输出一个JSON,然后必须将其存储在Bigquery表中 -
数据流:无工作人员活动
我在从AI Platform Notebook运行相对原始的Dataflow作业时遇到一些问题(该作业旨在从BigQuery中获取数据>清理 -
读取大量文件时,withHintMatchesManyFiles是否可以真正提高TextIO的性能?
在此<a href="https://stackoverflow.com/questions/45362108/how-can-i-improve-performance-of-textio-or-avroio-when-reading-a-very-large-n -
如何将我的腌制ML模型从GCS加载到Dataflow / Apache Beam
我已经在本地开发了一个Apache光束管道,在这里我可以对样本文件进行预测。 在本地计算机上, -
流媒体流上的使用问题add_value_provider_argument(Apache Beam / PYTHON)
我们要使用功能参数<code>add_value_provider_argument</code> 创建自定义数据流模板 在不输入<code>add_value_pr -
数据流模板usePublicIps作为参数
如何在Google VPC项目中运行的Google数据流模板中将“ usePublicIps”作为运行时参数传递/设置? -
动态表目标调用“未找到”错误
至少从2.13.0版开始,如果设置了<code>beam.io.WriteToBigQuery</code>标志,则用于Apache-Beam的Python SDK已支持在运 -
如何使用Python处理数据流管道中的BigQuery插入错误?
我正在尝试使用Dataflow创建一个流水线管道,该流水线从PubSub主题中读取消息,最后将它们写在BigQuery表 -
需要更新哪个Compute Engine配额才能使用50个工作程序(IN_USE_ADDRESSES,CPUS,CPUS_ALL_REGIONS ..)运行Dataflow?
我们正在使用私人GCP帐户,我们希望处理30 GB的数据并使用SpaCy进行NLP处理。我们想使用更多的工人,因