分布式处理-Apache Spark,Flink,Samza,Siddhi,Hazelcast Jet

想象一个处理系统从其他内部系统或从Internet公开的REST端点接收数据。一旦接收到,一组(后台)任务(根据基于db或其他Web服务的输入计算响应)并行处理数据,一个接一个地接一个地执行,或者在几个并行任务完成时执行一些任务。最后的(边缘)任务可以将结果发送到外部Web服务或存储到数据库表中。

可以将任务设计为简单的服务,以处理其他类似服务从message-queues传递给它的消息,并将结果发送到另一个队列进行进一步处理。系统可以使用流来处理而不是队列。我发现这种方法(编写由消息代理连接的服务)必须重复处理其故障情况,扩展和吞吐量。

是否有任何特定的框架(例如Flink或Samza或Storm或Airflow或Siddhi或Hazelcast Jet)来实施此类任务并将其部署到负责扩展和故障处理的集群中,而不是将每个任务实施为冗长的服务(例如,春季)并分别进行缩放。

as516344224 回答:分布式处理-Apache Spark,Flink,Samza,Siddhi,Hazelcast Jet

从您的描述看来,Hazelcast Jet可以在一个已部署的作业/管道中完成所有这些工作:从REST端点摄取数据,从侧面输入(“数据库或其他Web服务”)进行充实,以一系列步骤处理数据每个步骤都以数据并行方式执行,最后将数据推送到另一个队列。

这样的作业可以在一组机器上无限长地运行。我看到的唯一问题是失败后重新启动,因为REST数据源不可重播。

本文链接:https://www.f2er.com/3152163.html

大家都在问