数据分析师

手机号

验证码

30天自动登录

数据分析师

近距离了解开放式数据湖分析

来源:CPDA数据分析师网 / 时间:2021-04-13

您倡导的开放数据湖分析方法是什么?
开放式数据湖分析是传统数据分析的一种新方法,这种开放的方法可以提供许多战略和运营优势,这种开放数据湖分析方法是指使用包括开源,开放格式,开放界面和开放云的技术堆栈。我认为每个特征都很重要,这些属性通过利用不同类型的分析处理以及不局限于专有格式和技术,为终用户和公司提供价值。

数据湖仅用于存储,其本身并没有直接的价值
但是随着数据量的增长以及现在无处不在,它们变得负担得起,企业的价值来自在数据湖之上运行的计算引擎,或更常见的是SQL引擎,以及其他所需的组件,例如运营数据目录,使用开源引擎在战略上很重要,因为它允许查询数据而无需将其提取到专有系统中,如果将数据摄取到另一个系统中,则通常会将其锁定为封闭源系统的格式,此外使用开源引擎可以使社区共同发挥作用,以提供快速的开发和故障排除。

开放格式呢?
在过去的几年中,出现了许多优化的开放格式,以结构化但高度压缩的形式存储数据,这些格式是开源的,这意味着流行的查询引擎支持它们,理想情况下,开放查询引擎应支持开放格式和优化格式,以便用户可以决定在同一数据集上使用不同格式的不同用例所使用的引擎,使用开放格式可以使公司灵活地选择合适的引擎来完成正确的工作,而无需进行昂贵的迁移,一些流行的开放格式。

努力与现有SQL系统无缝集成并支持SQL
SQL分析是关键,因为SQL已成为数据系统的通用语言,并且仍在日益普及。在开放的数据湖分析堆栈中,没有专有的扩展。您应该能够通过ODBC和JDBC等标准驱动程序以及标准编程语言和库访问数据,在开放式数据湖分析堆栈中,您的查询引擎应该能够访问任何存储,与容器本机对齐并可以在任何云上运行,另外开放式查询引擎的一个优点是它们是无状态的,并且实际上不管理数据,这使得它们非常适合在容器中运行,从而使用户更容易利用技术来简化部署,例如一项托管服务,可为用户带来开放的数据湖分析,并利用容器和分类的SQL引擎。

您之前提到过“许多好处”
尽管传统的数据仓库方法在过去几年中获得了发展,但它可用于一组特定的用例,考虑到开放数据湖为公司提供的重大长期战略利益,开放数据湖分析方法将越来越多地(并且随着时间的推移会超过)采用数据仓库,多年来企业一直在寻找摆脱专有格式和技术锁定的方法,开放的数据湖分析堆栈使这成为可能,技术终于发展到了将存储与计算分离成为现实的地步,终使企业能够由更多数据驱动并做出更快,更明智的决策,尽管云数据仓库非常适合某些报告和分析用例,但它们很快就会变得非常昂贵,此外出现了一些新的用例,它们需要处理很多现有堆栈无法支持的数据,例如临时数据发现,您可以在任意位置使用SQL使用SQL来运行查询,无论数据位于何处,开放式查询引擎使您可以查询存储在其中的数据,因此不必将ETL数据存储到单独的系统中。

开始使用这种方法需要什么?障碍是什么?
根据数据的位置,有几种不同的入门方法,如果数据已经在数据湖中,则有以下三种方法:
自己动手:大型互联网公司采用这些开源技术,并自行大规模部署和管理它们,这种方法可能是困难的,因为它需要分布式系统经验,这些开源技术的基础知识以及平台团队需要具备的特定技能,帮助您开始使用此堆栈的某些部分,但是它们不能为您提供管理整个堆栈所需的专业知识,您仍然必须自己做,云原生托管服务,前两种方法显然是相当具有挑战性的,特别是对于规模较小的数据平台团队而言。这是许多数据供应商采用的围绕这些复杂数据处理技术构建云原生托管服务的方法,这显着减少了数据平台团队的学习曲线以及管理该堆栈所需的高级技能,同时仍然获得了互联网巨头构建的查询引擎的价值。

如果数据不在数据湖中
则这可能是一个阻止程序,有很多方法可以将数据从其他系统移到S3之类的数据湖中,技术包括传统的更改数据捕获技术,例如重播日志以将处理技术流化为基于云的ETL技术,数据到达后,通常需要将其优化为开放格式,以便可以利用分类查询引擎,取决于数据平台团队的技能,这种数据湖的创建可能会成为障碍,云巨头和独立供应商仍在继续简化这一过程,开放式查询引擎继续添加功能以减少存储数据结构的限制。

您可以为考虑这种方法的企业推荐哪些实践?

鼓励工程师研究和参与开源项目,接下来确定您的用例的优先级,并确定哪种用例将为您的公司带来的价值,评估各种前进的方法,并选择适合您的数据平台团队的概况和优势的方法。


返回列表