极手游游戏网 | 手游库 | 手机版 | 网站地图
所在位置:首页 > 游戏资讯 > 高手进阶

科学家攻略 数据科学家成长攻略:怎样开展工作

文章来源:极手游作者:小狐狸发布时间:2022-11-18 12:08:01

导读:的大数据时代方兴未艾,人工智能时代再次咆哮。人工智能时代,让数据发挥价值的因素包括资金、数据、平台、技术、人员等。科学家是人员要素中最重要的部分,企业需要高度重视。在之前的文章《AI时代的稀缺人才:解读数据科学家成长的4个阶段》中,我们提出了一个问题:如何成为一名合格的数据科学家?.本文将继续讨论这个问题,主要包括发展方向、组织架构以及如何体现数据科学家的价值。

科学家攻略 数据科学家成长攻略:怎样开展工作

01 数据科学家的工作模式与组织结构

数据科学家需要与业务专家一起工作才能发挥最大价值。's实际工作中,这两种角色如何配合,取决于采用业务驱动模式还是数据驱动模式。

1. 数据驱动还是业务驱动

业务驱动的特点是业务人员引领数据分析的需求、结果的应用、数据洞察在业务中的应用;数据驱动的特点是更加注重数据分析手段的主动应用,从数据洞察出发发起和改进业务。当然,数据洞察需要在业务执行中得到广泛应用。数据驱动更适合较新的业务领域,而业务驱动更适合现有的复杂业务。

但随着自身能力的发展,数据驱动模式正在成为主要工作模式,数据科学家需要思考如何让数据驱动模式变得更好,他们也愿意承担更多的责任。所以,除了算法、用法等基本技能,还需要考虑如何改善业务。

下图显示的责任比例只是一个提示。其实最重要的是哪个角色占主导地位。在工作中,没有业务专家无法主导的数据驱动模式。从业务结果来看,所谓的业务驱动和数据驱动,只是达成既定目标时不同的工作方式。在实际业务中,没有明确的分工,即业务人员只能做什么或数据科学家只能做什么没有限制。只有无缝协作才是最好的工作模式。

科学家攻略 数据科学家成长攻略:怎样开展工作

商业专家和数据科学家的两种合作方式

2. 数据科学家团队的组织结构

数据科学家团队的组织结构关系到数据应用的效率、管理的效率、个人发展等诸多方面。企业在设置时需要认真考虑这种组织结构。每个企业的实际情况不同,可以采取不同的方法。科学家的组织结构一般有两种,即分散式结构集中式结构.

分散式结构是数据科学家属于确定的业务部门,这种组织结构的优势在于,它可以与业务人员密切合作,将业务问题转化为高效的数据分析任务。

但是,也有一些不足之处。一方面,数据分析的知识积累是在个人身上,而不是在团队身上;另一方面,因为角色的限制,业务部门的数据科学家没有上升的空间。如果该部门的数据科学家想要继续他们的职业生涯,他们必须要么离开,要么担任其他角色。数据科学家的人事变动一旦发生,将不利于团队稳定和知识积累。

集中式的数据科学家组织结构就是跨业务条线而成立独立的专门做数据分析的结构。's组织结构的优势在于团队相对稳定,为成员提供了持续成长的空间,避免了知识积累的流失。

但是,也有一些不足之处。因为数据科学家是独立于业务部门而存在的,团队成员对业务没有深入的了解,模型的输出可能是低效的。业务部门可能只是把它当成一个支持部门,在实际业务中不会过多介绍。

企业在构建数据科学家的组织结构时,也可以采用混合结构。即使是集权的组织结构,其报告层级也可能不同。没有所谓明确的行业标准,因地制宜才是最实际的做法。

科学家攻略 数据科学家成长攻略:怎样开展工作

02 数据科学家的工作方法要点

数据科学家的核心任务之一是通过数据分析将数据洞察应用到实际业务中,并产生有效的结果。数据科学家在实际工作中需要注意以下几点,以保证上述目标的实现。

1. 开始工作以前确保具备成功要件

在开始工作之前,最好先明确一下业务场景、数据可获得性、数据质量等重要信息。.很多情况下,会出现一些问题,比如由于数据支持而没有进行详细的分析,模型效果很好,但是应用到地面时却没有相应的资源支持,数据分析只是探索而没有相应的使用场景。这些因素会严重影响数据分析的价值。

笔者作为顾问,在为多个客户端实施数据分析项目时,遇到了上述问题。从客户的角度来看,他们关注的是业务问题的解决,不会过多的考虑实施过程的细节。只有努力尝试,才能发现有些问题会严重阻碍数据分析的进度,也会影响数据分析的最终结果。

2. 同时输出两种价值

假设一个业务问题需要通过数据分析的手段进行改进,比如建立预测模型,筛选高价值、高回复率的客户。即使目标很明确,数据科学家在做的过程中也要保证两个输出结果。

(1)重要发现

在数据分析过程中,需要进行数据提取、数据处理、数据探索等一系列基础工作。在这些基础工作的过程中,往往隐藏着具有巨大商业价值的信息。比如,笔者团队在为某金融机构构建高端客户模型时发现一些信息,如“大部分客户只持有一类理财产品,半年内无交易活动”,这些信息对于后期的营销策略制定至关重要。.

因此,数据科学家在实际工作中需要保持“业务敏感性”,对数据背后的商业故事保持好奇心,一起输出一些重要的数据发现协同模型结果,可以大大提高分析题目的价值。

(2)模型结果

给定分析题目,基本可以确定目标模型的结果。例如,寻找高价值客户意味着模型输出一个列表,风险预警意味着给出风险得分和原因。这是模型输出的最基本形式。

在模型实现的实际应用中,业务人员往往用批判的眼光看待模型,总有不同的疑惑需要数据科学家基于模型结果来解答。典型的疑惑如“聚类分析模型确实把客户分成了几类,但我还是不知道如何营销这些客户”“社交网络分析模型给出了潜在高价值客户的列表,但这些信息不足以让营销人员开展营销”。

当这种情况发生时,一个简单的办法就是和业务人员进行深入的讨论,整理出他们的关注点,然后从数据库中提取出相应的指标,交给业务人员,作为模型输入的补充。

从本质上来说,业务人员困惑的原因是“业务人员期望模型输出决策而不是列表”,以及团队缺乏将模型输出转化为营销决策的能力。数据科学家也需要具备将模型结果转换为业务决策的能力。

科学家攻略 数据科学家成长攻略:怎样开展工作

3. 充满想象力地开展工作

一个算法能做的是数学范畴的知识?如果数据科学家的核心工作就是将业务需求转换为一系列的数据分析实践过程。把每个算法都看成一个组件,那么就需要数据科学家的想象力和不断尝试,用一个算法或者多个算法的组合来解决问题。

作者的团队曾经为一个客户做模型的时候,其需求是“根据客户的产品现状推荐产品,从而达到交叉销售的目的”。这是一个很不具体的需求,可以做的范围很广,有很多算法工具可以用。

最终使用“客户聚类和产品聚类的交叉分布和迁移矩阵,然后针对不同的目的进行营销”。如果是向上销售,可以推荐同类产品,交叉销售可以推荐不同的产品。这种做法以前没有实行过,但结果证明非常有效,仅一个营销应用就带来了数十亿的营业额。

4. 按照敏捷的方式来构建模型

数据挖掘过程也可以视为一个项目过程,从项目管理的角度来看,它当然可以以敏捷的方式进行。数据科学家需要主动汇报分析思路、预期结果、进展等重要信息。时刻与业务人员以及管理人员保持沟通,对需求变化保持开放将对模型的实际应用有很大帮助。

一般一个对数据和业务一无所知的人,建立一个模型需要几个月的时间。然而,对于一个熟悉数据、业务和算法工具的人来说,建立模型可能只需要几天时间。无论什么级别的人员进行建模,都可以用敏捷的方式管理建模过程。

我和CRISP-DM, a建模方法论的支持者之一朱利安柯林顿一起工作了四年。在长期的项目实践中,我们一直坚持这种方法论所倡导的核心点:贴近业务,不断探索,以结果为导向,应用后不断调整模型。事实证明,这些原则是非常有效的。CRISP-DM方法论的实施与实施过程中的敏捷管理相辅相成。

5. 以业务的成果来衡量自己的工作

模型的效果如何?数据科学家不要基于测试集中优秀的模型性能指标而沾沾自喜,这没有任何意义,最多说明建模技术高超。

模型带来的最终收益是由模型输出、与模型输出相匹配的业务决策、业务决策执行中的资源分配、应用场景的价值等综合因素决定的。缺少任何一个环节,都会让模型的价值一落千丈。

数据科学家需要积极推动这些环节的相关工作。积极收集模型部署后的监测数据在“建模-业务决策匹配-业务决策执行-效果监控-模型或决策改进-重新部署-重新监控”的闭环中发挥着积极的作用。最终的商业成果数据才是数据科学家真正成就感的来源。

作者简介:彭德勤企业咨询总监兼首席数据科学家,德勤全球AI团队核心成员,德勤数字化转型、智慧营销、智慧风控、客户体验等核心咨询服务高级顾问。

张宗耀,上海全赢科技有限公司高级数据科学家,原华为企业智能部高级数据科学家,原IBM SPSS算法组件团队高级算法工程师。

聂磊,陕西万和数字科技有限公司CTO,原IBM SPSS高级数据科学家,原IBM Watson Analytics数据分析引擎技术总监、架构师。

本文摘自《增强型分析:AI驱动的数据分析、业务决策与案例实践》,经出版社授权。

科学家攻略 数据科学家成长攻略:怎样开展工作

延伸阅读《增强型分析》

推荐语:增强分析是数据科学的未来。这本书阐述了如何通过前沿的大数据技术和AI技术,即增强分析,实现智能数据分析和商业决策。这本书的三位作者是来自德勤、前华为和前IBM的资深数据科学家,他们在大数据和AI领域拥有至少10年的工作经验。他们在本书中总结了自己在“建立数据挖掘模型,解决实际业务问题”方面积累的全部经验。

长按二维码,发现更多好书。

科学家攻略 数据科学家成长攻略:怎样开展工作

相关新闻
同类软件
软件推荐
最新问答