数据目录是成功的一半，我们需要回答真实的问题

来源：CPDA数据分析师网　/　时间：2021-03-09

尽管数据目录在治理中起着至关重要的作用
并且为数据发现奠定了坚实的基础，但也必须注意，它们不一定是为回答业务问题而构建的，人们不想购买四分之一英寸的钻头，他们想要一个四分之一英寸的孔！在数据世界中，我们必须记住，企业并不是真正想要数据，而是想要回答诸如“我们的目标市场的人口特征是什么？”之类的问题。或“我们对18-35岁年龄段的女性在加利福尼亚州的销售情况如何受到COVID-19的影响？考虑一下，如果您问一个搜索引擎搜索问题，您将得到一个真正的答案。

除非您已经知道要查找的数据表的名称或可以识别其中的内容
否则将花费大量的时间来定位，组装和准备正确的数据进行分析-多占分析人员时间的50％，当业务发展需要搜索引擎搜索时，数据目录是否有可能为我们提供十进制系统？如前所述，数据目录是迈向数据驱动型业务的关键步骤，但这也是需要回答其他问题的步骤，才可以回答业务问题，让我们讨论一下分析师遇到的一些障碍，以识别需要添加到数据分类的功能。

处理相同数据的多个版本
尽管数据仓库解决方案进行了认真的尝试以提供“事实的单个版本”，但是大多数数据体系结构中充斥着相同数据的多个版本，对于分析师或数据科学家而言，这会造成时间流失，因为这意味着他们必须调查每张桌子并手动评估其可行性。有时，即使表提供了相同的数据，也将其组织成不同的模式，而这种不一致的情况会导致额外的手动数据准备工作，例如CPDA数据分析师可能需要将一个具有雇员“工资”和“部门”数据的表与另一个具有“雇用日期”和“部门”信息的表连接起来。如果每个表都有多个表，但其中一些表的“部门”列具有不同的格式设置架构，则尝试组装正确的表可能是一个反复试验的艰苦过程。

为避免这种情况公司需要添加功能以允许数据目录呈现详细信息
这些详细信息不仅包括数据描述（通常由用户手动标记的信息），而且还包括对数据集完整性的自动洞察。然后，可以使用此类信息来比较包含相似或重叠信息的数据集之间的差异。例如，它可以使分析师快速识别出在两个包含员工退休福利数据的表中，一个表具有“ NULL”值的更多行，因此用处不大。

数据集需要从不同系统中的表中组装
许多业务问题需要从表中组装数据集，这些表位于不同的系统中，并且通常位于非常不同的物理位置，需要将数据移至仓库，集市或其他位置以使其可用于分析，这极大地减慢了该过程的速度，重要的是有风险，因此答案不在于移动数据，而在于使用虚拟化在数据体系结构上创建抽象化流程的结构，从而无需在查询之前实际移动任何数据。该开源项目“普雷斯托”已经为此奠定了基础，以软件，使SQL查询跨越的可以通过完全不同的环境下分布式数据表来执行。

将业务问题映射到有可能提供答案的数据集
数据目录无法告诉您是否有人已经针对您要查找的相同数据创建了查询，在大多数情况下，分析师的问题类似于过去所提出的问题，但是如果没有这个历史记录，数据团队将不可避免地会浪费时间来重新创建它，至少可以说手动创建跨越驻留在不同系统中的数据表的SQL查询并不是一件容易的事，为了解决此问题，需要将问题及其相关的SQL查询自动进行编年史，并将其映射回先前已检索来回答这些问题的数据集，这将使分析人员可以跳过几个耗时的步骤，此外在问题相似但彼此不一致的情况下，分析人员可以对查询进行微调，以获取所需的确切信息，例如他们可能需要从一个表中添加其他列（例如描述“工资”的功能），或仅选择满足特定条件的行。

在许多情况下分析人员将提出全新的问题
这些问题与以前的任何数据查询都不相关，当前的数据目录查询工具通常依赖于关键字搜索的形式，但是在没有任何意图的情况下，在大多数情况下，数据目录将为业务用户提供超出其实际需要的更多信息，它会检索与问题在某种语言上有联系的每个可能的数据集，而不是识别一些实际回答问题的数据集，这就是机器学习发挥作用的地方，NLP算法可以智能地组合来自多个源的数据，并建议很难手动发现的表之间的关系，NLP在聊天机器人和虚拟助手等领域已经取得了长足的进步，它们现在正在帮助引导客户通过公司官僚机构获得所需的帮助，实际上将这些相同的原理应用于数据编目只是一个问题。

可视化时间太长

分析师在探索数据集时要做的件事就是先了解其包含的数据的一般特征，这通常涉及收集描述性统计信息（例如平均值，标准偏差等），并且通常需要创建初始可视化信息（例如简单的散点图，直方图或饼图）来确定数据的形状，这有助于分析人员确定可能需要哪些准备工作，以及通常确定数据是否有用，当前分析人员必须将数据导出到BI工具中，但是由于数据目录具有提供快速简便的可视化功能的能力，因此可以节省大量时间-分析人员只需要将数据导出到真正可用于分析的BI工具中即可。

返回列表