数据仓库和数据湖之间的差异

来源：CPDA数据分析师网　/　时间：2021-04-21

数据仓库和数据湖的兴起
在90年代末和2000年代初，企业开展了大规模运动，将其数据存储在数据仓库中作为单一事实来源，当时有许多未联网的旧版应用程序和软件程序创建数据，这些数据在连接时可以帮助推动组织的宝贵见解和预测，您可以快速了解联接表的概念是如何产生的，可以通过各种逻辑将存储在一个环境中的数据绑定到另一个环境，但这需要一个周到的架构来连接各个部分。

将大量数据收集和整理为单一事实来源非常困难
出现的一个显着挑战是组织使用的新系统将数据存储在预定义架构的范围之外，缺乏灵活性为及时从其数据中获取价值创造了障碍，关系数据库的这种刚性很快就受到了无模式NoSQL数据库的挑战，不再有一个僵化的架构，即每个数据都必须“恰到好处”，而是出现了可以将信息记录为文档或文件的新技术，例如对象存储和文档数据库，对数据结构的思考方式的转变也导致人们对数据存储方式的看法发生了变化，并且数据湖诞生了，传统上，数据仓库和数据湖之间存在三个主要区别，但是这在过去几年中已经发生了变化。

1.结构化数据与非结构化数据
数据仓库需要非常结构化的表格数据，因此交易文本数据适合数据仓库，数据湖之所以不同，是因为它可以接受非结构化数据，这为企业不仅存储文本信息，而且还存储图像，音频和视频文件打开了大门。

2.写模式与读模式
点的直接影响是，必须先将数据仓库定义为架构，然后再将信息写入架构，必须预先确定所有列和行，以便结构化数据确切知道要去哪里。使用数据湖，该信息可以简单地包含在数据文档中，然后数据科学家可以在读取时创建模式，选择在提出问题时可以回答其问题的信息。

3.分层结构与平面结构
数据仓库由许多表构成，可以将这些表连接起来以查询见解，因此存在有关如何连接每个表的层次结构，产品表可以连接到交易表，而必须连接另一个表以显示产品位于哪个仓库，数据湖比较平坦-通常，它将不同的数据块存储在内部的信息流中文档，对于数据湖，采购订单可能包含订购的物品，订单ID和买方的地址，这些没有在离散表中链接在一起；它们全部存储在包含所有信息的单一平面结构中，而不必连接表。

数据仓库和数据湖：融合到数据云中
您可能会认为这两种数据存储理念截然不同，但是在过去几年中，这些技术开始融合，当企业将大量数据存储在数据湖中时，我们越来越多地看到它们在问数据问题或为数据提供结构时直接在数据湖顶部抽象一个数据仓库，为了帮助解释这种转变，请考虑一个用来钓鱼的钓具盒的类比，钓具箱的底部通常是一个敞开的部分，可以免费存放所有工具，诱饵，诱饵，绳子，重物等。这类似于数据湖，您可以在其中将任何东西放置在存储系统中而无需太多结构，但是在该数据湖上方提取数据仓库的这种转变类似于在钓具箱上的顶部插入物，该插入物箱具有用于将特定物品存储在一起的不同部分–可以为配重保留一部分，为钩子保留另一部分，为钩子保留另一部分，引诱尽管所有这些项目都可以存储在下面的部分中，但渔民可以选择拉出特定项目并在顶部进行企业。

滑车箱的两个部分都在这里是有原因的
就像数据湖和数据仓库有特定的用途一样，类似于数据湖可以接受任何数据并且具有极其灵活的方式，钓具箱的底部是一种有效的存储几乎任何东西而又不区分其内容或去向的方式，就像钓具箱的顶部井井有条一样，渔民可以快速找到特定的诱饵，数据仓库也可以提供围绕性能的优化，我们看到这种模式转变正在两家主要的云提供商中进行，数据湖是使用AWS Glue和S3构建的，服务允许用户跨海分布式处理器集群，但是越来越多提供了直接在数据湖基础设施之上使用的选项。

微软也有类似的转变
强国已将其SQL仓库改造为数据平台，该平台是数据湖和数据仓库的融合，现在除了提供专用的计算，Spark等之外，还提供了完整的数据体验，包括数据提取，数据管道和无服务器SQL。数据存储和数据湖分析的未来为探索提供了许多有趣的方向，我们可能会看到用于清理，充实和建模数据的脱机处理的兴起，以及越来越多的利用数据的引擎，这一切都是为了使公司能够相对便宜地存储大量数据，同时又灵活地使用它们。

释放数据湖中包含的见解
无论您使用AWS数据湖还是数据湖，可以帮助您从数据中提取价值，使用诸如Amazon Athena的无服务器查询引擎或无服务器的SQL，Sisense可以为用户提供可操作的情报，您可以将其无缝地注入产品，服务和体验中。

使用专用的计算群集

您可以创建一个精简，灵活的数据仓库层以检查数据，这使您的组织能够利用数据湖中的信息来在任何地方注入见解，公司使用和存储数据的方式每天都在演变-是您的吗？云数据源的分析是转变您的业务的关键，但是大多数公司如何使用它们的现实落后于预期。

返回列表