数据分析师

手机号

验证码

30天自动登录

数据分析师

开始使用SQL和规模管理数据质量

来源:CPDA数据分析师网 / 时间:2021-05-07

为什么要进行数据管理?
在过去的三年中,我已经从软件工程师转变为数据工程师,进入数据管理领域时,我开始共同努力解决无声且未被发现的数据问题,从软件工程的背景来看,在生产中编写单元测试和监视应用程序是给定的,但在数据上却是完全不同的,尽管大多数企业都知道他们应该进行测试,但是没有适当的策略,他们只是不知道如何解决该问题,从而使他们的系统暴露在外,并可能导致正在构建的数据产品出现严重的下游问题,随着越来越多的产品使用数据作为核心输入来构建,测试和监视所使用数据的质量变得从未如此重要,因此我们着手建立一个数据可观察性平台,该平台使组织能够发现,确定优先级并解决数据问题。
 
定义良好的数据质量
这是我们个针对数据密集型环境的开源数据测试,监视和配置工具。它可以与您现有的数据工程工作流程一起使用,以创建一种快速简便的方法来定义优质数据对您的业务意味着什么,这使数据工程师可以定义测试并防止在数据集,数据湖和数据仓库中未发现的静默数据问题。
 
开源救援
SQL是具有简单命令行界面Python库的开源工具,可通过度量标准收集测试数据,它利用ML配置文件作为输入来准备SQL查询,该查询在数据库中的表上运行测试以计算各种指标和测试,查找无效,丢失或意外的数据非常容易,由于SQL利用了SQL(您猜对了),因此数据可以保留在原处,并且可以利用现有的计算引擎,如果测试失败,则SQL允许您停止管道并防止不良数据造成损坏,在计算指标时,如果检测到数据问题,则还将捕获诊断信息以帮助进行分析,然后可以采取步骤,以一个数据团队的身份来确定优先顺序并共同解决问题,SQL可以单独使用,也可以与数据编排工具集成在一起使用,以调度扫描并根据扫描结果自动执行操作。

您可以查看有关如何入门的5分钟教程,但是这里有一个简单的示例:

可以在扫描ML配置文件中配置简单的指标和测试,此类文件的内容示例如下:


2、基于这些配置文件,Soda SQL将在每次新数据到达时扫描您的数据,如下所示:


使每个人都更接近数据
一个Web应用程序,可以随时间监视SQL指标和测试结果,通过这种协作,数据团队将领先于无声数据问题,Cloud扩展了SQL,并且两者可以无缝地一起工作,首先Cloud使用指标数据库扩展了SQL,以便可以随时间可视化测量和测试结果,这样就可以监视随时间的变化,并可以检测所有指标的异常情况,这些可视化和数据配置文件已经在较大的数据团队中的不同人员之间建立了透明性,数据团队中的所有人员都可以看到实际存在的数据,执行了哪些测试。

苏打云又走了一步

它使非技术人员可以通过三步向导在简单的UI中构建和维护自己的监视器,这很重要因为它消除了监视主题专家具有的领域知识的瓶颈,如果他们不需要让数据工程师来测试他们的域逻辑,那就意味着更多的领域知识将被用来定义什么样的好数据,结果将捕获更多的不良数据,从而防止各种损害,苏打云通过为数据团队提供一个中央平台来跟踪和评分跨核心质量维度的数据运行状况,从而规范性地解决了发现静默数据问题的问题。

数据和分析工程师配备了一种在数据每次转换时对其进行测试的方法

以确保数据管道的可靠性,通过SQL可以停止和隔离数据生产,可视化数据集的运行状况,并充当数据问题的沟通中心,数据消费者和生产者现在可以轻松地根据重要,预期和度量标准进行调整,从而使数据保持适合目的,我们还建立了与电子邮件和Slack的集成,以确保在正确的时间向正确的人员发出警报,以诊断,确定优先级并解决数据问题。


返回列表