-
分布式处理-Apache Spark,Flink,Samza,Siddhi,Hazelcast Jet
想象一个处理系统从其他内部系统或从Internet公开的REST端点接收数据。一旦接收到,一组(后台)任务 -
使用Apache Flink流处理缓冲转换后的消息(例如1000条计数)
我正在使用Apache Flink进行流处理。 从源(例如:Kafka,AWS Kinesis Data Streams)订阅消息,然后使用Fli -
WSO2流处理器,带有Kafka的JSON错误“包含缺少的属性”
我正在使用kafka以Json格式将数据获取到WSO2流处理器,但是在发送到wso2 kafka主题的每个json文件上都收到 -
在字符串数据中仅保留字母数字字符
我正在流中获取字符串数据,我只想保留字母数字字符。我注意到Siddhi提供了正则表达式功能,如<a href= -
微服务架构,用于频繁访问数据;在内存解决方案中?
让我们定义以下<strong>用例</strong>: <ul> <li>必须完成一个模拟任务,其中涉及[<strong> day1,day2,..., -
任务管理器接收到的邮件无序
我正在从文件中读取消息,并在写入Sink之前应用了一些运算符,发现任务管理正在使给定密钥的消息混 -
无法在Siddhi中使用'regex'http状态代码处理响应
我试图处理/接收带有正则表达式http响应代码'2 \ d +'的2xx状态代码的所有响应,但未按预期进行处理。当 -
动态调用Flink运算符
我最近已经开始学习流处理,并且正在Apache Flink尝试。我正在尝试编写一个作业,该作业从Kafka主题读取 -
计算道路平均速度
我去了数据工程师工作面试。面试官问我一个问题。他给了我一些情况,并请我设计该系统的数据流。 -
Apache Flink-根据事件时间计算最后一个窗口
我的工作要做以下事情: <ol> <li>根据事件时间从Kafka主题中获取事件。</li> <li>计算7天的窗口大小, -
Flink-RocksDB中的localdir配置是什么?
我是flink的新手,并且对状态后端配置有些困惑。 据我所知,RocksDB将应用程序的所有状态保存在 -
Flink-无法从检查点恢复
我正在使用一个Jobmanager和2个Taskmanager在kubernetes上运行我的集群。 我在作业运行时通过杀死一个taskmanager -
无法连接到ID为1的节点:[Worker]:错误:ConnectionError('无连接到ID为1的节点')
我正在尝试使用robinhood /浮躁,但没有成功! 我已经创建了一个生产者,可以成功地在我的融合kaf -
时间窗口联接以在flink中的固定大小滚动窗口上聚合数据
我有2个流,一个是Order流,另一个用于预订接受订单后可供预订的所有出租车,其他用于所有已预订的 -
Flink Kinesis Connector不以最大容量使用Kinesis Data Streams的消息
我正在测试Apache Flink(使用v1.8.2)从Kinesis Data Stream读取消息的速度。 Kinesis Data Streams仅包含一个分片, -
合并多个Flink DataStream的最佳方法是什么?
我正在寻找合并多个(> 20个)Flink流的最佳方法,这些Flink流表示我们系统中事件的不同起源。所有类型 -
Kafka流-当事件可能在时间上相隔很远时加入流
我想问您关于如何为Kafka Streams解决以下问题的解决方案的建议。 应用程序包含主题和课程,并且 -
在流处理中从大型数据集过滤
我正在开发流应用程序,输入流是一系列事件。对于每个事件,我需要从关系数据库中过滤掉有效的订 -
Apache Flink中的有状态功能
我研究了Apache Flink的新的Stateful Functions 2.0 API。我阅读了以下文档链接<a href="https://ci.apache.org/projects/flink -
有效地将结果流存储在多个表中,每个项目均具有乐观锁定
给出一个包含很多项目的结果流,我想存储它们并处理潜在的并发冲突: <pre><code>public void onTriggerEve -
使用Apache Beam的简单示例
我需要实现一个使用Apache Beam的简单流处理程序示例。我想创建一个传感器读取网络。传感器将是20个随 -
如何在流和批处理数据之间实现UNION操作
显然,基于<a href="https://github.com/apache/spark/blob/master/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/Un -
是否存在与订单无关的数据处理的专有名称?
您如何称呼(数据处理)系统,其中以不同顺序处理数据不会改变最终结果/状态? 这样它可以例 -
如何正确地从json数据中提取值?
我将siddhi用作CEP,并尝试从JSON数组中提取值。 我所做的是定义了的生产流 (DATA_YPE字符串,Value1 -
在Kafka流处理中进行聚合时,使用提供的主题进行变更日志和重新分区
我正在使用Kafka流处理通过Springboot聚合来自源对象的数据。 <pre><code>@Bean public java.util.function.Consumer< -
如何使用Java在Apache Flink中上传jar
您能告诉我如何使用Java和Flink Apis将jar上传到flink环境。我尝试发送包含所有必需标头和标志的多部分POST -
Kafka流中的changelog主题-设置或更改分区
我们有一个流处理器应用程序,该应用程序使用具有n个分区(n> 1)的主题中的数据。<br/> <br/> 从头开始 -
使用Samza Runner执行Beam Pipeline时,org.apache.beam.sdk.util.UserCodeException
我正在尝试使用Samza Runner从<a href="https://colab.research.google.com/github/apache/beam/blob/master/examples/notebooks/get-star -
使用Apache Beam
我正在尝试从无限制的数据流中删除重复事件。我尝试使用滑动窗口(周期为30秒的60秒窗口)以及按唯 -
处理无限制的数据流时,在窗口结束后触发事件
<strong>给出</strong>:无限制的数据流,其中某些重复事件位于每个事件附近(在时间上);重复事件具