数据分析师

手机号

验证码

30天自动登录

数据分析师

数据科学团队非结构化数据

来源:CPDA数据分析师网 / 时间:2021-04-21

象棋队模型是我们在文献中所了解的常见模型
在象棋队中,团队中的每个成员都有特定的角色,角色通常是:数据工程师,数据科学家和机器学习工程师,这些角色通常对应于不同的技能集(例如ML和统计与编码和开发人员)和不同的活动集(模型选择与数据准备与模型部署),与具有明显角色不同于其他棋子的国际象棋棋子相似,数据科学国际象棋团队的成员被分配了一部分任务,这些任务是开发流程的一部分。让我们考虑一个简单的开发流程:

数据准备->数据工程师
模型开发->数据科学家
模型部署->机器学习工程师

此开发管道的三个活动对应于团队的三个角色,几乎没有混淆的空间
数据工程师可能不会在模型开发和选择上做很多工作,而数据科学家可能不会是在生产中部署模型的人,模型是我在本文中介绍的团队模型的定义,在一个棋盘团队中,团队的每个成员都没有特定的角色,因为他可能负责开发流程的任何步骤,没有像数据工程师或数据科学家这样的角色,因为承担这样的角色意味着限制团队成员应该从事的活动范围。让我们举个例子,在跳棋队,没有数据的科学家,因为没有人负责模型开发的,那么某人在跳棋团队中所扮演的角色是什么?团队的成员可以定义为全职数据开发人员,全栈数据开发人员是从事例如数据提取,模型开发和模型部署的人员,在一个检查团队中,每个人都可能在开发生命周期的每个环节中工作,从这个意义上说,团队更类似于跳棋棋子,一块可以采取任何行动,另一块不能采取任何行动,没有任何团队成员无法做的活动,每个人都可以为构建管道和自动化做出贡献。

每个团队成员与他/她的队友都有不同的背景和技能
一种可以来自软件工程经验,另一种可以来自数据科学研究,但是建立一支跳棋团队的策略是投资于培训团队成员,以横向提高他们的技能水平,让我们考虑一下国际象棋和跳棋团队模型之间的一些关键区别,灵活性,随着时间的推移,团队中活动类型的平衡不稳定。有时,数据工程中的工作项达到高峰,而ML模型开发中的工作项很少甚至没有,这些高峰可能是由于数据产品开发周期的不同阶段,也可能是由于业务需求的变化。跳棋队非常灵活,可以快速适应这些高峰,例如如果需要一个检查团队可以指定整个团队在冲刺中开发数据工程管道,在国际象棋团队模型中,由于不同的技能和不同的责任而受到约束,所以同样的灵活性并不容易。

并非每个数据科学团队在他们的项目中都面临着同样程度的复杂性
想象一个正在为自动驾驶汽车构建AI模型的团队,要解决这是一个复杂的问题,需要计算机视觉和AI方面的高级技能,这些技能无法快速学习,但通常需要特定的教育或职业道路,遇到此类问题时,您需要团队成员,他们是视觉或AI等领域的专家,一个国际象棋团队旨在接待某些领域的专家,并旨在垂直发展这种技能,在一个跳棋团队中,没有这样的专家。

跳棋团队的成员详细了解开发周期的每个阶段
在设计ML模型时,他同时了解发布管道和模型操作的工作方式,他可能会在模型选择过程中做出决定,考虑到将在何处托管模型以及生产平台可能受到的限制,另一方面国际象棋队的数据科学家对模型的部署和运行方式知之甚少(因为他没有亲自进行过研究),这种较小的意识可能会导致在模型开发期间采取假设,并且这些假设可能会使负责部署此类模型的人员变得更加复杂,主人翁意识,在一个检查团队中,您负责两个工程数据管道,开发模型以及部署它们,在这些阶段中可能发生的任何问题也是您的问题,您不能委派太多,因此,您自然会为解决问题做出贡献。分配所有权使每个团队成员都更加积极地改善开发生命周期。

团队模型什么时候合适?
答案取决于背景和您工作的企业,数据科学团队是否正在研究公司的核心产品?在这种情况下,开发的模型可能需要一定水平的专业知识,而跳棋团队不能仅仅做到这一点,还是团队正在致力于添加微小的功能或改善公司的运营?在这种情况下,您可能不会开发的AI模型,而您可以依靠现有的库或SaaS来简化生活,由于复杂性不是障碍,因此选择可能是一个不错的选择。

您的数据科学团队的规模是多少?甚至您有几支球队?
大型企业需要多个数据团队,这些团队可以按功能划分(例如1个数据工程师团队+ 1个独立的数据科学家团队),也可以按业务部门划分(例如1个用于营销的数据团队和1个推荐系统的数据团队),当然您不能在按职能设计数据团队的大型组织中采用模型,但是您仍可以在大型组织中采用此模型,该企业可以创建多个自组织的团队,每个团队都致力于特定的业务部门。

要考虑的是IT体系结构

一个检查团队需要同一个人来完成非常不同的任务,仅当此类任务的复杂性较小时,这才是可行的,采用SaaS和PaaS资源可以隐藏管理和运行资源的复杂性,从而简化了每个任务。他们让您专注于自己的目标,例如构建具有功能即服务的API端点对于具有数学背景的数据科学家来说是可行的,在本地服务器上从头开始做同样的事情是不可行的。



返回列表