数据分析师

手机号

验证码

30天自动登录

数据分析师

没有交互式分析就没有数据湖屋

来源:CPDA数据分析师网 / 时间:2021-03-31

客户确认的大量研究告诉我们
数据湖之所以令人沮丧,是因为它们只能兑现其承诺的一半,虽然本地云对象存储是低成本存储的绝佳选择,但数据湖查询引擎却未能做到这一点满足了企业针对较少数量的并发用户的交互式即席查询的需求,这就是为什么我们看到诸如“数据湖屋”之类的新模式出现的原因,目的是为数据湖带来数据仓库级的查询延迟和并发性,但是在整个行业中,我们并不完全同意如何将这些属性带入数据湖,我们认为尝试模拟数据仓库性能的缓存策略并不能很好地满足客户的需求,但是这些缓存策略会在工作负载混合和高并发性的压力下崩溃,相反我们认为正确的答案是通过具有功能强大的工作负载管理功能的现代化实时SQL数据仓库来扩展您的数据湖,从而使从云对象存储的提取变得敏捷而轻松,并具有有效的存储和访问格式用于分析结构化数据,并且经过了实时和静态数据规模化测试,以确保出色的性价比。答案不是建立在已知为客户增加成本和复杂性的解决方案的基础上,业界过去曾尝试使用Hadoop。

打破局限
听起来像是一个简单的目标,但现实情况是,达到此目标的当前选择与数据湖查询引擎一样存在问题,对于半结构化和非结构化数据,传统方法过于僵化,拥有和扩展成本很高,而仅云计算的选择很差或针对大规模数据或并发需求的不可预测的价格/性能并且显然无法为地理位置或其他要求提供本地选项,为了解决这个问题,数据仓库中进行了多年的研发,这些数据仓库是从头开始设计的,以利用优化的实例进行各种规模的交互式即席分析,数据仓库是面向行和列的混合实现,可提供列存储的扫描吞吐量以及通过百万行/秒实时逐行读取数据的功能。通过这种方法,无需分割,手动索引,查询调整或其他优化,就可以立即提取流数据并与静态数据一起进行查询,这一切都可以!

数据湖楼架构
高级工作负载管理也是防止资源争用的关键组件,它使您可以对特定工作负载类型和/或使用者的查询进行优先级排序(例如,您可能希望对数据科学团队的即席查询进行优先级排序),同时进行罚款或什至是罚款,重新启动失败的,要使用交通工程隐喻,要获得的交通吞吐量,仅使道路宽阔且没有障碍物是不够的,有时您还必须防止阻塞交通的速度较慢的车辆进入道路,与仅使用云的选项不同,数据仓库可以部署在数据中心/私有云中,并且可以在所有三个主要公共云中以及两者(混合)中部署为SaaS。

客户结果讲故事
客户已经了解到架构和工作负载管理功能在数据湖上进行交互式查询的好处,解决方案是行业领先的SaaS产品,专注于数字身份验证,拥有超过5,000个品牌作为客户。对于该用例,不良的客户体验会直接影响业务,现在每天将1TB +的流数据摄取到数据库中以进行立即分析,运行几分钟的用户查询现在只需几秒钟或更短的时间(使用1/4的基础架构)就可以完成,并且停机时间为零,不再需要担心。

的移动运营商之一在其原有的数据湖增强平台因数据量增长800%而失败时也面临着数据危机

运营报告现在可以精确到秒,实时核对收入,而不是批量进行(保护SIM卡代理商的数百万元),并且查询速度提高了20倍,而数据量却增加了8倍。


返回列表