数据分析师

手机号

验证码

30天自动登录

数据分析师

在您的数据湖中打开大坝

来源:CPDA数据分析师网 / 时间:2021-04-01

虽然初引入数据湖的重点是数据存储和处理的终结果
但随着时间的推移,很明显,数据湖比处理数据更擅长收集数据,数据湖内的批处理分析和数据科学当然是可能的,但通过严格的服务级别协议和多个并发用户支持关键任务工作负载的能力却较差,通过将数据湖重新构建为摄取时的路口站,我们打开了新的模式以从数据中获取业务价值,数据湖实际上非常适合此路站用例,由于它们基于文件,因此它们几乎可以捕获任何类型的数据格式,包括所有类型的非结构化数据,数据湖还针对低成本进行了优化,从而允许用户存储重要的和不太重要的数据,数据湖可以广泛访问,尽管性能有所折衷,但仍提供了出色的可访问性。

让我们看一下从湖中提取数据以推动价值的三个选项
将数据移至企业数据仓库,数据湖的初目标之一是收集足够多的不同数据,以使业务分析师能够获得新的见解,但是如何将这些见解投入生产,例如创建运营报告,在诸如数据湖之类的共享资源上变得充满挑战,大型团队不受束缚地进行访问,而又无法轻松划分工作负载,因此数据湖无法支持许多关键任务用例,但是企业数据仓库是专门为此目的而设计的。它们支持SQL(分析的通用语言),允许所有类型的现有商业智能工具以本机方式查询数据,还优化了一些企业数据仓库,以管理跨不同服务级别协议的工作负载,例如可以授予一组高管日常报告优先级,以便营销团队的活动分析不会受到干扰。

大多数数据仓库都支持各种数据存储中的加载功能
包括数据湖,因此可以将其构建到正在进行的提取,转换和加载(ETL)过程中,将数据移动到运营数据存储中,从湖泊中提取数据的另一种方法是将数据移至可操作的数据存储中。这种方法可以帮助增加应用程序的分析深度,考虑一个社交网络应用程序和注册过程的示例,注册后该应用程序可能希望向您显示各种各样的人,构建Web应用程序的公司很可能已经在结构化的数据库中收集了所有用户信息,但是他们也可能有一个数据湖,用于收集有关用户行为和模式的Web指标,该数据可能被发送到数据湖。

为了得出建议的用户升级为新用户
该公司可以运行许多批处理过程来细分其用户群,并定义潜在的相似性组,在数据湖上工作的数据科学团队可以建立潜在的亲和力小组,提取要在新注册期间共享的用户子集,然后将该数据移动到要在注册过程中使用的可操作数据存储中,这种类型的批处理过程可以从数据湖中提取结果并将其添加到数据库或数据仓库等可操作数据存储中,从而有助于推动应用程序的参与,这有助于为用户提供更好的体验,并推动应用程序公司的服务增长。

将数据移到消息队列中以供实时使用

可以轻松地在组织内部和外部共享当前数据,许多人认为消息队列仅馈入数据湖,但是消息队列有许多用途,可用于复制数据,合并不同的数据源,或提供可靠的,可跟踪的机制来进行的数据移动和共享,除了比较流行的从接收器连接器外,还存在带有连接器并提供了另一个从数据湖中获取价值的方法,通过打开水坝使湖泊栩栩如生,事实证明,数据湖是收集和存储数据的宝贵场所,但是鉴于对数据库和数据仓库的先前经验,对处理需求的期望会有所不同,通过将数据湖重新构架为提取的路站,甚至可能是的路站,架构师可以采用一种新的方法来获取超出数据湖本身的价值。



返回列表