您实际上是否需要数据湖?
来源:CPDA数据分析师网 / 时间:2020-05-20
与任何新兴技术一样没有的解决方案
对于某些情况,数据湖可能非常适合,但在其他情况下,坚持使用久经考验的数据库体系结构将是更好的解决方案,在本文中我们将研究五个迹象,这些迹象应有助于您了解是时候加入数据湖的潮流,还是应该坚持传统的数据仓库。但是首先,让我们通过定义术语“数据湖”来设置讨论的参数。
数据湖:功能定义
数据湖通常被定义为一种大数据体系结构,该体系结构侧重于将原始结构的非结构化或半结构化数据存储在为多个分析用例或服务提供服务的单个存储库中。存储和计算资源是分离的,因此静态数据驻留在廉价的对象存储中,而各种工具和服务可用于查询该数据。
这不同于传统的数据库或数据仓库体系结构
在传统的数据库或数据仓库体系结构中,计算和存储是耦合的,数据是在摄取时进行结构化的,以强制执行设置的架构,数据湖使采用“立即存储,以后分析”的方法变得更加容易,因为将数据提取到湖中的工作很少,但是在分析数据时,可能会出现一些传统的数据准备挑战。
现在我们有了一个定义让我们继续询问–您的组织是否需要一个数据湖?首先查看这5个关键指标。
1.您的数据结构如何?
数据湖非常适合存储大量非结构化和半结构化数据。将这种类型的数据存储在数据库中将需要大量的数据准备工作,因为数据库是围绕结构化表而不是原始事件构建的,而原始事件将采用JSON / XML格式,如果您的大多数数据都是由结构化表组成的,例如预处理的CRM记录或财务资产负债表,那么粘贴到数据库可能会更容易。但是,如果您要处理大量基于事件的数据(例如服务器日志或点击流),则可能更容易以原始格式存储该数据并根据用例构建特定的ETL流。
2.您的ETL流程有多复杂?
ETL(提取-转换-加载)通常是实际使用数据的前提条件,但是在处理大数据或流数据时,由于使用Spark / Hadoop等代码密集型框架编写ETL作业的复杂性,它可能成为主要障碍,为了程度地减少您在ETL上花费的资源,请尝试确定主要瓶颈出现在哪里。如果您在努力将半结构化和非结构化数据“拟合”到关系数据库中时很费劲,那么可能是时候考虑过渡到数据湖了。但是在创建从Lake到将用于分析,机器学习等的各种目标服务的ETL流时,您可能仍然会遇到很多挑战–在这种情况下,您可能需要在其中使用Data Lake ETL工具为了使其中一些流程自动化。
3.数据保留问题吗?
由于数据库将存储与计算结合在一起,因此在数据库中存储大量数据变得昂贵,这会导致很多关于数据保留的烦恼–修剪掉数据中的某些字段,或者限制我们保留历史数据的时间以控制成本,如果您的组织一直在为保持分析目的而保留数据与摆脱数据以控制成本之间寻求平衡,那么就可能需要采用数据湖解决方案-因为围绕廉价对象存储构建的数据湖体系结构使您能够保持可以达到TB甚至PB的历史数据,而无需花大价钱。
4.您的用例是可预测的还是实验性的?
您应该问的一个问题是您打算如何处理数据,如果您只是试图构建一个报告(或一组报告或仪表板),而该报告(或一组报告或仪表板)本质上是通过对定期更新的表运行一组预定的查询来构建的,那么数据仓库将是一个很好的解决方案,因为您将能够使用SQL以及可用的数据仓库和商业智能工具来简单地建立这样的解决方案,对于更多的实验用例(例如机器学习和预测分析),要预先知道您将需要什么数据以及如何查询它们将变得更加困难,在这些情况下,数据仓库的效率可能非常低,因为预定义的架构将限制您浏览数据的能力。在这些情况下,数据湖可能更合适。
以“取决于”结束文章总是感觉很糟糕,但实际情况是,大多数技术问题都没有一个答案。当数据达到一定规模和复杂性时,数据湖无疑是必经之路。您的组织在吗?您可以使用上面详述的四个问题来尝试找到该问题的答案。
在做数据分析的过程中,这些步骤可以帮助改善决策
https://www.chinacpda.com/jishu/19033.html
数据分析师主要从事的工作有哪些?
https://www.chinacpda.com/wenti/6041.html
智能数据时代,数据分析到底要分析啥?
https://www.chinacpda.com/jishu/12536.html
Datahoop平台帮助您在工作当中有效的提高工作效率
https://www.chinacpda.com/datahoop/
CPDA数据分析师报名方式
查找您周边省份授权培训中心:
https://www.chinacpda.com/train/
2020年CPDA数据分析师线上报名:
https://www.chinacpda.com/baoming.php
CPDA职业规划
数据分析师的职业规划:
https://www.chinacpda.com/career/
CPDA数据分析师考核时间:
https://www.chinacpda.com/examine/
免费客服热线:400-050-6600
商业联合会数据分析专业委员会
返回列表