我们可以在数据仓库中存储多种类型的数据吗?

我想问一下,我们可以在Hadoop数据仓库中存储各种类型的数据吗?像 RDBMS、JSON Doc、Cassandra Keyspace、txt、CSV 等数据?它们都存储在 HDFS 中吗?

zws138 回答:我们可以在数据仓库中存储多种类型的数据吗?

经典 DWH 是一个结构化、过滤数据的存储库,这些数据已经为特定目的进行了处理,所有数据都以相同的格式存储,除了可以存储数据的着陆区(LZ 或 RAW)与从源系统加载的格式相同。 DHW 建造过程基于 Kimball 或 Inmon 理论。

您要问的是数据湖 - 一个现代概念 - 是一个庞大的原始数据池,其用途尚未完全确定。在 DL 中,您可以将所有结构化数据与半结构化数据一起存储,数据分析师可以访问 RAW 半结构化数据和 3NF 或维度形式的结构化数据。

RDBMS 通常会在内部存储表示之间添加抽象层,并表示如何访问它,尽管许多 RDBMS 可以将数据存储在 HDFS 中的外部文件中,但这是为了方便与 Data Lake 集成。

是的,您可以将所有内容存储在同一个 DL 中:半结构化数据,不同存储格式的数据,如 AVRO、CSV、Parquet、ORC、ETC,在其上构建 Hive 表以及不同的 RDBMs 表,都可以存储在同一个 HDFS/S3/Azure/GCS/etc

有些层也可以在 DL 中创建,如 RAW/LZ/DM 或基于领域事件/业务事件模型,这意味着 DL 不是没有架构约束,通常你有一些架构设计和架构约束在 DL 和经典 DWH 中遵循。

本文链接:https://www.f2er.com/86585.html

大家都在问