数据分析师

手机号

验证码

30天自动登录

数据分析师

特征工程的命运不再是必需的还是容易得多?

来源:CPDA数据分析师网 / 时间:2021-04-02

特征生成之前和之后的其他过程(例如数据准备或模型管理)是确保准确的机器学习模型所必需的
但是如果不知道哪些数据特征对实现模型的目标具有决定性的作用(例如预测申请人拖欠贷款的风险),企业就无法进行后续的数据科学步骤,从而使之前的数据毫无用处,因此特征工程是构建机器学习模型必不可少的任务之一。

标有标签的培训数据:大量用于有监督和无监督学习的培训数据是其阻碍企业发展的因素之一,缺少针对特定模型目标的带有标签的训练数据,使这种担忧更加严重。
数据准备:即使有足够的培训数据,简单地清理,转换,集成和建模数据也是费力的数据科学任务之一。
工程操纵:用于确定特征的数据科学工具和技术种类繁多,这也需要大量的工作。

这些因素中的每一个都使要素工程成为一个漫长而繁琐的过程
大多数机器学习都是不可能的,因此有许多新兴的和成熟的数据科学方法可以克服这一障碍或使其变得不那么引人注目,在某些方面拥有工程正开始变得那么有趣,因为没有人愿意做艰苦的工作,考虑到图形数据库方法对于加速特征工程过程或避免将其与图形嵌入一起使用,以更快,更快,更便宜地获得相同的结果,这种观点特别有意义。

嵌入替代
图形嵌入使组织能够克服功能工程的困难,同时仍能辨别对高级分析模型的准确性影响的数据特征,通过图形嵌入,您无需为此进行大量的功能设计,本质上您可以按原样使用图的功能来学习嵌入,图形嵌入是将图形转换为向量(数字)的过程,可以正确地捕获图形的连接或拓扑,以便数据科学家可以进行支持机器学习的数学转换,如果存在有关抵押贷款和风险的知识图,则数据科学家可以使用嵌入对这些数据进行矢量化处理,然后将这些矢量用于机器学习转换,因此他们从图形向量中学习了模型的特征,同时消除 了对标记的训练数据(机器学习的核心障碍之一)的迫切需求,这样的框架可以将图形数据剪切并粘贴到进行嵌入的数据科学工具中,终用户将能够直接在竞争性知识图解决方案中执行嵌入。

更快的特征工程
支持此嵌入过程的基础图形环境对于转换传统特征工程的有效性也非常有用,从而使企业更易于访问,该实用程序的一部分源于图形数据建模功能,语义图技术基于所有数据类型都遵循的标准化数据模型,这对于加快数据准备阶段的面至关重要,因为您可以更轻松地集成来自多个源的数据,这种集成的简便性直接负责为机器学习训练数据集包括更多的来源,并确定它们之间的关系-这提供了从各个来源中收集不到的其他输入。

您现在获得了更多的信号源
它们的集成可能会给您发出信号,表明您不会在单独的数据源中收到信号,此外图形设置的固有性质(它们提供了节点之间关系的丰富,细微的上下文关系)对识别特征非常有帮助,在图环境中,特征可能是实体及其属性之间的链接或连接,二者均通过语义技术进行描述,简单地分析这些连接会为机器学习模型带来有意义的输入。

加快功能工程
除了图嵌入和仔细检查实体之间的链接以确定特征外,在图数据库之上构建的数据集成和分析准备平台还提供了自动查询功能,以加快特征工程过程,该过程通常涉及根据相关数据创建一个属性表,并且“这些列之一就是您要对其进行预测的列,自动查询的生成加快了这项工作,因为它“使您能够针对数据组合快速进行特征工程设计”,您可以从图形中快速构建本质上是提取的内容,其中每一列都是您要建模的功能的一部分,自动化查询还允许用户从图形的不同部分直观地构建宽表,从而使他们能够更快地使用更多数据。这样做的结果是增强了“更快地试验您要提取的功能”的能力。

自动数据分析
自动生成用于特征工程的查询的能力无异于在图形环境中自动分析数据以加速特征选择过程的能力,数据剖析向您显示了图形中的数据类型,它为您提供了有关此数据的每个维度以及样本的非常详细的统计信息,自动化的数据剖析自然可以加快数据科学的发展速度通常需要简单地了解数据如何与特定的机器学习用例相关联,这种自动化形式自然补充了与生成查询有关的功能,数据科学家可以利用这些统计信息“并且在您开始构建要提取的特征表时可以使用这些信息”“您可以通过查看数据的分析来进行类似的处理。”

功能的未来
功能是确定的数据特征,使机器学习模型可以准确地发布预测和处方,在这方面它们是AI统计分支的基础,但是通过简单地通过图形嵌入来学习这些特征,来实现这些特征所需的精力,时间和资源可能会变得过时,因此数据科学家不再依赖于难以找到的,经过标记的训练数据,此开发的后果可能会扩展有监督和无监督学习的用例,从而使机器学习在整个企业中比现在更为普遍。

另外图平台还具有其他加快功能设计的方法

基于它们的集成,自动数据分析和自动查询生成机制,因此与过去相比,它需要的时间,精力和资源要少得多,两种方法都使机器学习对组织更加实用和实用,从而扩大了数据科学作为一门学科的价值,所有的问题是将数据汇总,清理和提取,以便您可以对其进行特征工程,您的机器学习项目的加速器是关键。  



返回列表