数据分析师

手机号

验证码

30天自动登录

数据分析师

数据虚拟化和逻辑数据湖

来源:CPDA数据分析师网 / 时间:2021-03-31

关于数据虚拟化我们是否可以使用数据虚拟化将物理数据湖变成更实用的逻辑数据湖,以及从单用途数据湖到多功能数据湖?
原始数据湖的复杂性,数个定义描述了数据湖的特征,数据湖的个流行定义什么是数据湖?数据湖是一个存储库?,它以其本机格式保存大量原始数据,直到需要它为止一个代表数据湖的高级体系结构,数据科学家更喜欢以原始形式查看数据,因此几乎没有数据转换将应用于数据。

将所有必需的数据存储在一个位置中
使数据科学家可以轻松地使用它们,不幸的是存在实际的复杂性,这些复杂性使得包含复制数据的这种集中式数据存储的开发变得困难,不可能或不允许进行,所有ETL程序员都同意,他们将大部分时间都花在开发上,由于存储在数据湖中的数据仍然是原始格式,因此数据科学家仍然必须花时间开发。

大数据太大而无法移动:在某些环境中,来自数据源的海量数据可能太多,无法发送,也无法进行物理复制,带宽和数据摄取限制使不可能将大数据源复制到数据湖。
不合作的部门:并非所有业务部门和部门都渴望与集中式环境共享数据,这可能会导致其数据被保留。
限制数据隐私和保护法规:越来越多的法律,法规和条例禁止将特定类型的数据一起存储。有时,不允许数据离开某个,或者有关数据隐私和保护法规的规定可能禁止将某些类型的数据集中存储在数据湖中。
数据存储在高度安全的系统中:某些源系统具有高度安全的系统,可防止错误和欺诈性的数据使用。所有者可能不允许将其数据复制到原始安全领域之外并复制到安全性较低的数据湖中。
缺少元数据:并非所有源数据都带有描述性元数据,这使得数据科学家很难理解特定数据元素的含义。误解可能会导致错误的业务洞察力。
刷新数据湖:存在复杂的刷新过程,可根据用户要求使数据仓库中的数据保持。数据科学家是否也需要刷新其数据?某些数据可能不需要刷新,对于某些数据科学练习来说,它不是必需的,但是在某些情况下,必须组织定期刷新。
数据湖的管理:数据湖是一个数据传递系统,因此必须对其进行管理。当数据科学家需要访问数据时,该数据必须可用。
 
救援的逻辑数据湖
这些都是现实的并发症。克服这些复杂性的另一种数据湖架构称为逻辑数据湖,它基于数据虚拟化技术结构的高层,在一个逻辑数据湖中,将数据呈现给数据科学家,就好像所有数据仍集中存储在一个数据存储库中一样,没有东西会离事实很远,一些数据被复制并集中存储,某些数据可远程访问,而某些数据则在本地缓存,在后一种情况下,数据科学家不会访问源本身,而只能通过数据虚拟化的缓存引擎的刷新机制来访问源。数据科学家访问缓存的虚拟表,根据所需,可能和可行的方式,可以使用三种方法之一来使数据科学家可以访问数据,在哪里复制数据并集中存储只是原始数据湖体系结构中的一种选择,它不是逻辑数据湖中的选择,请注意数据科学家看不到这三个选项之间的区别。

逻辑多功能数据湖
这将我们带到本文开头提出的第二个问题,当引入数据湖时,它被认为是一种单一用途的系统,仅适用于数据科学家。开发,维护和管理数据湖不是免费的,因此如果将开发限制在一个或两个用例中,则数据湖可能不必要地昂贵,或者投资未得到充分开发,实践表明对数据湖的利用可以扩展到不同形式的数据使用,例如运营报告,自助服务BI和嵌入式BI,以数据虚拟化服务器作为驱动技术开发的逻辑数据湖可以轻松地适应各种业务用户的需求,从传统的自助BI用户(例如从事财务,市场营销,人力资源,运输)到复杂的数据科学家们。

在此解决方案中不同的用户访问不同的层或区域
访问着陆区中的虚拟表与直接访问物理文件类似,数据科学家可能在此区域中使用虚拟表,自助服务BI用户可能正在访问中间区域,该区域中的数据已被轻松集成和处理,那些部署标准报表的用户使用虚拟表访问顶部区域,在虚拟表中已完全处理了数据,这是多功能数据湖。一种支持许多业务用户的环境。

毫无疑问数据湖对数据科学家的价值
但是解决一个物理,单一用途的数据湖可能是不可行或不实际的,数据湖中包含的数据太有价值,无法仅将其限制为仅形成相对较小用户群的数据科学家使用,如果可以扩大目标受众而不妨碍原始用户,那么对数据湖的投资将更有价值,逻辑多功能的数据湖更加灵活,不存在集中数据存储的问题,并支持广泛的业务用户。

使用数据虚拟化构建多用途数据湖文

数据虚拟化可以简化向云的迁移,并使云本身对大多数应用程序和报告透明。



返回列表