数据分析师

手机号

验证码

30天自动登录

数据分析师

Hadoop报告距离自助式大数据更近了一步

来源:CPDA数据分析师网 / 时间:2021-02-02

Hadoop初并不是为提高速度或提高安全性而设计的
该平台初并不是为终用户而设计的,易于使用促进在线分析处理多维数据集的使用,该多维数据集位于Hadoop之上,是提供数据访问的逻辑且更加用户友好的方式,多维数据集通过以多维形式存储Hadoop数据来做到这一点,该多维数据可用于各种不同的报告,并且比数据集市或数据仓库之类的数据访问结构更适合分析报告,多维数据集在Hadoop之上放置了一个语义层,该语义层提供了额外的安全性和访问速度,该工具可以与Excel等已建立的分析报告软件很好地配合使用,并且使终用户更容易访问数据。

希望更多的终用户将发现他们不再是数据科学家
这反过来又将有助于更积极地使用大数据报告功能来解决业务问题,随着易用性的提高,企业用户将能够以按需自助服务模式使用分析报告,自助服务是一个重要的差异因素,因为近接受调查的大数据研究企业受访者中有60%告诉我们,他们的组织尚未实现对大数据的自助服务访问,自助服务他们从大数据中获得业务价值的可能性将增加50%。

企业从大数据和分析中获得业务收益的机会又增加了10%
支持大数据/分析事业,大数据应用的有一半以上(52%)可能来自营销/销售和收入增长目标,另外35%来自运营,13%来自人力资源和其他公司领域,获取数据的参与和建立大数据(和大数据投资)的热情在很大程度上是由于对数据的访问容易,在过去的十年中,公司将钱花在了仪表盘,记分卡和其他类型的大数据和分析报告上,以及Hadoop本身上,现在是时候他们研究一种语义数据基础结构,它可以将Hadoop中的数据干净快速地带入各种终报告软件中。

不要用垃圾破坏您的数据科学工作
世界上的数据科学团队无法挽救您从不良源数据中获得的收益,了解确保您的数据不会垃圾的五种方法,对于任何数据科学家而言,都是低质量的数据,您可以发明世界上见过的聪明的算法,但是当输入不良数据时,它将变得毫无用处,垃圾进,垃圾出去,我目前正在与一家大型石油和天然气公司合作,通过帮助他们采用更加基于风险的检查策略来提高其炼油厂的安全性。风险的应用将是纯粹定量的-使用历史检查数据来确定需要更多关注的高风险区域。由于某些人对现有的历史检查数据有信心,因此该方法受到了挑战。这是数据专业人员通常面临的有效挑战,为了捍卫数据科学,您必须具有良好的数据质量技术。

1:清洁源
一切始于干净的资源,当您从一个相对干净的房子开始时,打扫房子要容易得多-数据清理也是如此,在我的石油和天然气客户中,关于如何收集数据存在一些棘手的问题,您可能会看到2021年管道厚度读数大于2020年厚度读数的地方,我不是物理学家,但我敢肯定,管道厚度不能随时间增长,尽管值得调查,但我们仍未就为何看到如此可疑数据进行过彻底的根本原因分析。与任何形式的数据清除缓解措施相比,我更喜欢这种方法10次。

2:开发答案键
在声明高数据质量之前,您必须知道什么样的高数据质量,在某些情况下,这可能是不可能的,在我的管道测量示例中,不可能确切知道三年后管道应该变薄多少—这就是您要检查的原因,但是在某些情况下,您确实知道什么样的高数据质量,有一个答案键,尤其是在您要使用统计技术确定数据质量时,一个简单的单样本t检验可以告诉您数据的质量,如果您正在挖掘公司的电子邮件服务器中的员工情绪,则算法应排除任何进入服务器的垃圾邮件,在这种情况下,垃圾邮件非常明显,因此反垃圾邮件(非垃圾邮件)也应如此,这将成为您的答案。

3:记住完整性规则
完整性规则是如果您的数据是干净的数据中必须存在的条件,我曾与一家大型科技公司合作,为他们的政府销售建立客户注册表,客户注册表充当四个或五个数据源的客户主数据。为了整合每个数据源,我们就产品数据的(添加,更改,删除)性质采访了产品所有者;然后,我们在其表上安装了审核日志,以查看实际发生的情况,在几乎所有情况下,都有从表中删除的行,这些行不应该删除,而添加到表中的行应该是静态的,考虑数据中的逻辑规则,如果没有数据损坏,该逻辑规则应适用,并构建审计脚本以在发生违规时告诉您,例如如果有一个外键指向一个不存在的主键,那么您就遇到了问题。

4:采用专家系统
如果无法进行定量风险评估的对象不是我的石油和天然气客户,我们将采访专家,看看我们是否可以复制他们在分析数据之前所经历的清理数据的过程,这是一个专家系统,它是人类专家如何确定良好数据质量的基于规则的复制,只要一个专家系统运行良好,只要:1)您有实际的专家(提示:检查他们的结果并忽略他们的头衔);2)他们可以清楚地解释自己的工作;3)他们所做的可以转化为明确的规则,与大多数事情一样,该理论过分简化了语用学,因此要小心,您的专家可能已经有很长一段时间的潜意识能力,因此很难解释他们的工作。尝试向小学生解释如何驾驶汽车。那并没那么简单。

5:在您的武器库中包括机器学习
使用机器学习来清理将用于机器学习的数据听起来像是递归的,它实际上是有效的,有两种系统:一种用于清洁,另一种用于分析,您需要确保将其解决方案空间分开-两个不同的问题。但是,没有理由为什么您不能教计算机学习干净数据的外观,特别是如果您具有答案键,仍然仅依靠计算机使用机器学习来清理输入数据仍然让我感到紧张,即使今天在机器学习方面取得了进步,您也永远不会真正知道清洗算法的效果如何,即便如此在您的武器库中加入机器学习以应对不良的数据质量也没有什么坏处。

我已经介绍了五种确保您不会破坏垃圾数据科学工作的方法

有些策略可以立即使用,有些策略可能需要一些时间才能发展,您应该认真对待仅将质量的数据馈送到数据科学算法中,否则您会很快看到数据科学团队的素质受到侵蚀。


返回列表