可以在近RDBMS场景中使用哪些hadoop框架

我们正处于一个项目的分析阶段,在该项目中,我们将替换基于hdfs和用于报告和查看的配置单元的旧存储系统。

但是我们得到了一个请求,如果我们可以使用hdfs来代替数据库工作的一部分。

预期的方案如下;

  1. 表格将存储每日流量数据。.大约400个监视点。
  2. 第1点中的某些表将用作流程的输入,该流程将进行一些转换并转储到其他表。
  3. 第1和第2点中的表应用作将在报告门户中使用的视图的基础表。用户可以随时访问该页面。
  4. 任何步骤中预期加载错误,因此表应支持某些行的删除/更新。
  5. 大约50%的表可以超过亿条记录。.但其他表将分别为1k,50k,1M。10M ..,因为这将是一个汇总信息。
  6. 在任何表上都可以使用联接来聚合查询。

我知道hadoop的生态系统很大,可以有很多组合,所以我会寻求您的帮助来指导我。

  1. Hive可以支持部分情况,例如第1,2和3.点,但是以这种方式(在操作上)使用它是可行的
  2. 还有哪些可以用来解决大多数此类情况? hbase,kudu ..还有其他东西吗?

原谅我..我是新来的

tqh123456 回答:可以在近RDBMS场景中使用哪些hadoop框架

您可以尝试利用Apache Phoenix:http://phoenix.apache.org/ 由于该应用程序易于在HBase上安装,因此允许表定义和SQL语法,还支持视图,还支持二级索引。

当然,加入和聚集都是有代价的。并且仍然需要一个好的模型。

本文链接:https://www.f2er.com/3141644.html

大家都在问