数据分析预算中是否包含开源分析
来源:CPDA数据分析师网 / 时间:2020-04-29
开放源代码通常是高质量的
并且软件功能通常是创新的,这要归功于不断测试和增强它的开发人员社区。而且由于该社区可能非常庞大且遍布全球,因此这种情况可能会日以继夜地发生,从而导致快速的代码审查和修复以及可靠的,先进的软件,尽管这并不总是驱动因素-软件必须可靠并且具有正确的功能-这是首要考虑因素。IT决策者始终需要保持预算。但是这里存在挑战,特别是对于依赖大数据的自托管开源用例而言,初是一种低成本,相对容易的选择,但很快就会变得异常复杂且代价高昂,尤其是当涉及数TB的月数据时,就像在日志分析之类的应用程序中一样。
评估成本考虑因素
那么您如何确定开源是否适合您的大数据分析预算?您需要仔细考虑所有已知和隐藏的成本,以便得出可能的逐年总拥有成本。从总体上讲这些成本可以分为三类:基础架构,定制和持续运营。
一、 基础设施
由于基础架构根据您期望生成的数据量而变化,因此准确估算数据量非常重要。特别是如果您在云中运行,那么存储和计算的每增长都会花费金钱。如果您超额配置,则会浪费金钱。但是,如果配置不足,则可能会丢失数据,错过重要的见解并阻碍业务绩效。
在估算容量需求时,需要考虑以下关键因素:
1、每日数据量。对于日志分析,这将包括来自应用程序,系统和网络的数据
2、您的组织何时/如果通常遇到数据量高峰。您需要确保环境可以轻松扩展,以免数据涌入成为瓶颈。
3、您需要保留数据多长时间
4、您的交易量将逐年增长
5、您需要多少个其他服务器及其配置,例如,处理器类,内存,存储。期望随着卷的增长添加服务器以保持性能。
二、定制
如果您几乎不需要定制就可以从下载的开源软件中获得价值,那么您的成本将得到控制。但是,使用分析软件,通常需要大量定制才能获得生产就绪型解决方案。为了确定您需要为该项目奉献多少开发人员,请考虑以下定制组件:
1、配置解决方案以提取,清除和解析来自所有来源的数据,并维护可能需要数百种配置的配置,以适应各种各样的框架和数据格式。
2、建立有弹性的数据管道,并确保如果系统生成事件的速度快于索引事件的速度,则不会丢失数据。
3、处理映射异常,为了确保解决方案为文档编制索引,而不是返回失败消息并删除不合适的数据,您必须保持格式一致并始终监视异常。
4、确保数据一致性。在解决方案的数据收集组件中应用相关的解析功能,以确保您具有用于搜索数据和可视化结果的正确字段。
5、实施监视和警报功能,以将性能和潜在的安全问题通知您。
三、正在进行的操作
随着数据量的增加(它们可能会这样做),将消耗更多的资源,并出现新的复杂性和问题。必须有专家来应对这些问题,并执行自我托管的开源实现所需的日常维护。请记住,随着数据的扩展,处理操作所需的人数也会增加。以下是他们将要完成的一些工作:
1、维护您的基础架构 并规划容量。
2、重新索引过时的索引可以避免潜在的故障和数据丢失。
3、监视群集运行状况并响应故障。
4、处理软件升级,包括在决定是否实施更改之前彻底研究更改。为确保您在升级过程中不会丢失数据,请首先在非生产环境中运行测试。
对于自托管的开源分析解决方案,随着数据量的增长以及托管,自定义,扩展和维护日益复杂的基础架构的成本,TCO每年都会成倍增长,这种情况并不罕见。确保为此做好计划。或者,您可以寻找在自己的解决方案中利用开源分析软件为您服务的托管服务提供商。
推荐数据分析相关文章
通过大数据看懂《2019年北京市交通工作报告》
http://www.chinacpda.com/news/16636.html
数据分析师培训费用是多少?考试费是多少?
http://www.chinacpda.com/wenti/8814.html
空调机组报价预测——基于线性回归的数据分析案例
http://www.chinacpda.com/case/detail/?id=449
CPDA数据分析师报名方式
查找您周边省份授权培训中心:
http://www.chinacpda.com/train/
2020年CPDA数据分析师线上报名:
http://www.chinacpda.com/baoming.php
数据分析师的职业规划:
http://www.chinacpda.com/career/
CPDA数据分析师:
http://www.chinacpda.com/examine/
免费客服热线:400-050-6600
商业联合会数据分析专业委员会