我们正处于一个项目的分析阶段,在该项目中,我们将替换基于hdfs和用于报告和查看的配置单元的旧存储系统。
但是我们得到了一个请求,如果我们可以使用hdfs来代替数据库工作的一部分。
预期的方案如下;
- 表格将存储每日流量数据。.大约400个监视点。
- 第1点中的某些表将用作流程的输入,该流程将进行一些转换并转储到其他表。
- 第1和第2点中的表应用作将在报告门户中使用的视图的基础表。用户可以随时访问该页面。
- 任何步骤中预期加载错误,因此表应支持某些行的删除/更新。
- 大约50%的表可以超过亿条记录。.但其他表将分别为1k,50k,1M。10M ..,因为这将是一个汇总信息。
- 在任何表上都可以使用联接来聚合查询。
我知道hadoop的生态系统很大,可以有很多组合,所以我会寻求您的帮助来指导我。
- Hive可以支持部分情况,例如第1,2和3.点,但是以这种方式(在操作上)使用它是可行的
- 还有哪些可以用来解决大多数此类情况? hbase,kudu ..还有其他东西吗?
原谅我..我是新来的