数据分析师

手机号

验证码

30天自动登录

数据分析师

分析的每个方面都由数据模型提供支持

来源:CPDA数据分析师网 / 时间:2021-02-19

工程师和分析师以不同的方式看待数据
数据模型通过重新格式化和重组数据以定义数据集之间的关系,促进了这些组之间的交互,思考数据模型的另一种方式就像建筑师的建筑蓝图:它有助于创建一个概念模型,该模型设置各种数据项之间的关系。 

转型:开启见解的步
数据建模可以企业和转换数据,由于数据是从各种来源提取的,每种都有其预先存在的格式,因此有必要将数据转换为干净且统一的格式。一致的格式设置和易于访问是产生可信赖的见解的重要组成部分,数据仓库在现代商业世界中已变得极为重要。对于许多组织而言,提取其所有数据,将其全部不变地加载到数据仓库中,然后通过清洗,合并,聚合等进行转换的情况并不少见,作为一种选择,当使用数据建模工具时,数据会经过提取,加载,然后进行转换流程以将其转换为所需的格式以进行分析。 

数据到达仓库后,可以离线或实时更新
脱机数据会定期从操作数据库中按固定的时间表(通常每天,每晚,每周或每月)进行更新。所述操作数据库被设计为支持交易处理,也称为在线交易处理,不保存历史数据,仅保存当前数据用作数据仓库的源,用于实时存储和管理数据。任何交易发生时,运营数据库中的元素都会立即更新,例如,机票预订系统,银行系统,工资记录和员工数据,数据仓库与在线分析处理工具一起提供了统一的多维数据视图,工具有助于多维空间中数据的交互和有效处理。这就是为什么分析人员和管理人员使用系统而数据库专业人员使用系统的原因,数据仓库是随时间变化的数据库,使分析人员可以分析和比较各个时间段(年,季度,月,周,日)的业务。

数据构建工具
DBT代表数据构建工具,一个命令行工具,数据分析人员和工程师可以在其中编写语句和查询以转换仓库中的数据,执行ELT流程的转换部分,以一种有效的方式转换已经提取并加载到仓库的数据,函数获取代码,然后在SQL中进行编译,然后针对数据库运行支持数据库。

资料建立工具
转换数据时有一些子过程可为分析准备原始数据:

合并:此过程集成了来自相似或不相似结构的多个来源的数据。例如,我们有两个数据源:A和B。A的日期格式为dd / mm / yyyy,B的日期格式为yyyy / mm / dd。在转换中,这些日期被转换为一种格式。 

清理:此过程可识别和更改不一致之处,并删除不准确的数据。例如,它将活动帐户标记为“ A”,将非活动帐户标记为“ I”。

归一化:此过程将数值数据点置于相同范围内,以提高准确性和结果。

过滤:仅选择要加载的某些列。

汇总:在此过程中,多个详细值汇总到单个汇总值中,例如总和,平均值,值或小值。

DBT与SQL
SQL是一种易于使用且功能强大的语言,但是它仍然没有诸如Python和Java功能之类的编程语言,当SQL与功能齐全的模板语言结合使用时,它将变得动态且功能强大。

DBT查询结合了SQL和称为模板语言,将DBT项目变成了SQL的编程环境。它提供了使用编程语言功能的功能,例如在SQL中通常无法实现的写函数和控制结构。

DBT轻松完成了困难且耗时的步骤-为数据团队动态转换数据,通过在SQL范例中引入这些软件工程原理,例如版本控制,模块化,暂存和单元测试,可以帮助数据分析师从中受益。

重要特征提供了一些现成的功能:

模板继承
提供的强大的功能是模板继承,在此功能中,将创建父或基本模板,其中包含网站的所有基本和通用功能,这些功能需要包含在每个渲染中,创建的子模板继承了基本模板的通用结构,并且可以覆盖基本模板中定义的块。

HTML转义
强大的HTML自动转义功能,HTML转义有助于防止客户端站点跨站点脚本(XSS攻击)。从模板生成HTML时,始终存在变量将包含特殊字符(如“>”,“ <”或“&”)的风险,这些特殊字符在模板中具有特殊含义并影响生成的HTML。  

沙箱用于评估不受信任的代码。运行时的沙盒环境会评估哪些属性或函数可以安全访问。如果模板访问的代码不安全,则会引发安全错误。

宏就像Python中的import语句。重复代码通常放在Jinja中的宏中。这些宏可以进入不同的模板,并可以从那里导入。宏的主要目的是“干燥”(“不要重复自己”)。

数据建模为了从数据库中提取数据
我们需要编写一个复杂的SQL查询,从头开始杂乱地复制粘贴或重写SQL查询,幸运的是通过提供一种简单的方法来管理和执行SQL脚本来解决此问题,SQL脚本是转换数据仓库中已有的数据以用于分析/ BI工具所需的,不必在脚本中复制和粘贴SQL查询,您可以使用模板和可重复使用的数据模型来构建复杂的分析查询,模板可能很大并存储,然后可用于分析和可视化,与将模板存储在本地相比,将模板托管在外部云源上具有某些优势:

轻松共享模板
所有配置始终使用模板
可以进行版本控制
导入和模式是自动管理的
模型通常是在.sql文件中定义的select语句。使用Jinja模板语言进行数据建模意味着模板与SQL语句结合在一起。它使编写和维护复杂的SQL查询变得更加容易。

强大的组合

具有模板的DBT成为生成动态SQL查询的非常灵活和强大的工具。它的独特功能使组织能够与现有数据仓库集成,并以所需格式动态转换来自各种来源的数据,我们在内部将结合使用,因为它降低了维护数据模型的成本,并更好地支持我们的代码驱动和自助服务分析实践。如果您正在运行一个高级数据团队,希望本文为您提供了很多思考和可行的操作步骤,以在您的工作中使用来获得其中的一些好处从简化高级分析操作到加快可视化,无论您需要完成什么。利用您的技能,数据和时间做更多的事情,并开始在您需要的任何地方更简单地注入各种见解。 


返回列表