建立现代数据管道意味着做出重大决策
来源:CPDA数据分析师网 / 时间:2020-05-18
或负责开发一款可逐级从玩家的获利中获利的手机游戏
如果游戏突然飙升至应用程序商店的顶部,您很快需要收集并容纳可变长度的事件数据,例如级别进度以及与时间戳匹配的点数,玩家名称,排名和位置,该怎么办?坐在办公桌下面的MySQL服务器真的可以保持管道连接和流动以跟上需求吗?
这些场景应该看起来并不陌生
几乎每个数据工程师或开发人员都面临着来自异构资源的数据流入零散的孤岛的孤岛的挑战,直到近才可能查看,解释和分析运输中的数据,取而代之的是它几乎没有实时地被批量处理和收集。
数据的数量和速度的增长速度比构建本地处理的管道要快
这导致痛苦的重启周期,不一致的数据格式以及许多其他挑战,给组织带来痛苦的后果。结果是陈旧且不确定的结果,延迟难以维持,并且整体性能受到瓶颈的影响,开发人员只是想将数据存放在他们想要去的地方,以实现准备用于分析的单一规范存储。但是面对有限的资源和工程团队的更高优先级,这并非总是可能的。
创建和维护现代数据管道的三大挑战
在我们确定开发人员和工程师为构建和优化数据管道而必须解决的挑战之前,我们需要定义术语“数据管道”,就我们的目的而言,它是一组自动化的工作流程,可从多个来源提取数据,并以一定程度的弹性和架构灵活性连接到这些来源,从而实现数据移动性,转换和可视化,在管道中应明确定义收集数据的方式,位置和方式以及自动提取,转换合并和准备数据以进行更深入的分析和可视化的过程。
牢记这个(复杂!)定义让我们研究在设计数据管道时要考虑的一些常见挑战。
1.在需要的位置(以及如何)获取数据
要获得完整的数据图,就意味着要达到一种状态,在此状态下您可以从组合信息中获取见解。您的工具必须支持与尽可能多的数据格式和源的连接,包括非结构化数据。这里的挑战是首先确定需要的数据,以及将用于在管道中提取,合并和扩充数据的策略。
2.为数据寻找家
管道一旦存在,就必须将所有这些新组合的数据放在某个地方。它将存入本地位置吗?如果是这样,那么您将不得不做出一系列选择,包括数据将精确存储在何处以及采用哪种格式,确定系统内是否应该存在冗余,满足服务水平所需的性能基准协议(SLA)等,您的数据解决方案也可以利用托管服务,托管服务的价格可能更高,但可变性(可定制)远少于本地运行。但是,托管云服务确实提供了更多量身定制的支持以及可扩展的存储和内存。
3.将来验证您的管道
一些企业仍在以静态或全静态方式导入数据。但是,在构建处理数据的管道时,展望未来至关重要,尤其是考虑到创建数据的惊人速度,您的组织当前可能会从一个设备,系统或一组传感器中提取数据来为您的应用程序供电,但是这种情况永远不会发生。同样,如果选择在本地托管解决方案,则必须考虑该系统在未来的可行性,设计和维护可行的数据管道的方法有很多种,并且每个组织都没有解决方案。选择托管服务途径来应对这些挑战的企业可能会实现面向未来的直接解决方案,而拥有适当能力和资源的企业则可以设计自定义的途径。但是无论您选择哪种方式,快速而战略性地做出决定都是很重要的,因为数据的加速增长不会等待您做出决定。
返回列表