大数据的下一步是什么?通过弹性对象存储超越Hadoop进行思考
来源:CPDA数据分析师网 / 时间:2020-06-23
将大数据存储在公共云中对于用户来说是昂贵的
因为将数据发送到云中可能会很昂贵,但将其拉出的成本甚至更高,如果他们试图通过购买更多的Hadoop数据节点来扩展其本地Hadoop计算资源来避免这种情况,那么他们将通过过度配置计算资源来承担更高的成本。
公司发现了“数据引力”的概念
随着数据量的增长,惯性会越来越大,退出云计算变得更加困难和昂贵,并且随着它经历不同的迭代和转换,它会发生变化。因此,组织正在努力避免在存储数据后不得不移动数据。他们希望从分析角度来看它是“热门”,然后从存储角度来看它是“冷”,不幸的是,传统的Hadoop部署并没有赋予他们这种灵活性。
另外,拥有许多较小的数据“沼泽”只会使问题复杂化,用户终会陷入“ Hadoop泛滥”的境地,即购买和管理许多专门用于处理不同类型分析的不同Hadoop集群,这又产生了高昂的成本,并增加了多个硬连线集群的刚性以及频繁重复数据的复杂性。
因此,我们看到对开放软件定义存储(SDS)的需求不断增加,这有助于解耦计算和存储,并减少Hadoop泛滥,本地使用SDS(例如开源对象存储Red Hat Ceph Storage)可以使数据保持不变,并对数据进行分析。能够使用分析工具和选择的框架对于想要使用玩具的数据科学家来说非常重要,同时又要使他们的技能更加犀利。公共云只是无法跟上分析框架领域正在发生的所有创新。
数据可以从许多不同的数据源或单个虚拟化的数据源直接摄取到SDS解决方案中
无论是Hadoop还是非Hadoop,这些分析工具均在现场。客户控制确定哪些数据流具有较高或较低的业务价值;这样,一个部门认为高价值的东西可以流入其SDS集群,而另一个部门则将更多价值放在其他数据上,然后将其流入其集群。
这种方法的优点以多种方式体现出来
总体拥有成本更低–没有硬连线的Hadoop集群,没有数据传输到分析工具,因为这些工具是就地的,并且没有计算资源的过剩容量,公司避免依赖于单个供应商而被锁定,此外这种方法具有灵活性和可扩展性,能够轻松支持Web规模的大数据分析项目。
能够利用行业标准的S3A接口
可以帮助数据科学家将任何分析工具与对象存储本地连接,从而实现更好的性能和接近线性的对象存储规模,许多公司希望在内部进行自助服务分析,并使用公共云提供的相同类型的易用界面,开源SDS与S3A接口的结合满足了这一需求,同时消除了盲目获取数据的需求。
返回列表