设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 1636|回复: 1

[其他] 新手数据科学家常犯的13种错误及其解决方法

[复制链接]

13

主题

106

金钱

177

积分

入门用户

发表于 2019-5-28 14:25:10 | 显示全部楼层 |阅读模式

介绍
所以当你已经决定在数据科学这条道路走下去的时候。世界上越来越多的企业正在成为或者转型成为数据驱动的企业,世界变得越来越紧密,并且看起来每个企业都需要数据科学的人才。因此,对数据科学家的需求是巨大的。更巧妙的是,每个人都承认这个行业内人才是短缺的。

然而,成为一名数据科学家并不容易。要想获得真正的成功,需要解决问题,拥有结构化思维以及编程和各种技术技能的结合。如果你并非来自技术和数学的教育背景,那么你很有可能通过书籍和视频课程来学习。大多数的这些资源并不能告诉你业界需要的数据科学家的要求是什么。

这就是为什么有抱负的数据科学家正在努力弥合自我教育与现实工作之间的差距。

在本文中,我将讨论新手数据科学家所犯的常见错误(我自己也犯过一些)。我还提供了尽可能多的资源,旨在帮助你避免数据科学之旅中的这些陷阱。

1.只学习理论概念而不应用它们
正如我在关于文章中提到的那样 - 掌握机器学习技术背后的理论是很好的。但如果你不应用它们,它们只是理论概念。当我开始学习数据科学时,我犯了同样的错误 - 我学习了书籍和在线课程,但是并不能把它们全部都应用到实际的问题中去。

因此现在当我遇到一个挑战或问题时,我会尽可能的去使用我所学的一切有关的知识,而不是只用一部分!有很多东西需要学习 - 算法,推导,研究论文等。你很有可能在中途失去你的动力并放弃一部分或者全部。我亲眼看到这种情况发生在很多试图进入这个领域的人身上。

解决方法:
你的学习过程必须在理论和实践之间保持良好的平衡。只要你学习了一个概念,请立即访问百度,找到可以使用它的数据集或问题,然后进行实践。你会发现你比以前更好地学习了这种概念。你还可以使用各种数据科学领域平台的练习题和正在进行的比赛。

你将不得不接受你无法一次性学习所有东西。用你的练习去填补空白,这样你将学到更多东西!

2.在不学习先决条件的情况下直接进行机器学习技术
想要成为数据科学家的大多数人都受到机器人视频或令人敬畏的预测模型的启发,在某些情况下甚至是成为数据科学家会有高薪。遗憾的是(很抱歉让你失望了),在到达你想要的之前,你需要走很长的路。

在将技术应用实际问题之前,你应该先了解技术的工作原理。学习这些将有助于你了解算法的工作原理,你可以做些什么进行优化它,并且还将帮助你构建现有技术。数学在这里发挥着重要的作用,所以了解某些概念总是有帮助的。在日常的企业数据科学家角色中,你可能不需要了解高级微积分,但明白一些高级概述还是肯定会有帮助的。

如果你有一定的好奇心,或者想要从事研究工作,在进入核心机器学习之前,你需要了解的四个关键要素是:
线性代数
微积分
统计数据
概率

解决方法:
正如房子是一砖一瓦慢慢砌起来一样,数据科学家也是所有独立部分的总和。有大量的资源可以帮助你学习这些主题。我已经提到了下面每个主题的一个资源,你可以在网络上搜索到他们:
数据科学家线性代数综合入门指南
可汗学院的微积分课程
通过案例解释数据科学概率的基础知识


3.完全依赖证书和学位
啊,这是招聘经理和招聘人员最烦恼的事。自从数据科学变得非常受欢迎以来,各种的认证和学位几乎都出现了。浏览一下我的招聘资料,至少可以看到5张令人自豪的认证展示图片。虽然获得认证并非易事,但完全依赖它是灾难的根源。

网上有太多这样的课程被成千上万有抱负的数据科学家一遍遍的学习和完成。如果他们曾经为你的数据科学简历添加了独特的价值,那现在并不是这样了。招聘经理并不关心这些 - 他们更加重视你的知识,以及你如何在现实生活中如何应用这些知识。

这是因为与客户打交道,处理截止日期,了解数据科学项目生命周期如何工作,如何设计模型以适应现有的业务框架 - 这些都只是你作为数据科学家成功所需要了解的一些事项。仅仅一个证书或者学位并不能说明你可以胜任这份工作。

解决方法:
不要误解我的意思 - 证书是很有价值的,但只有当你将这些知识应用到课堂之外并将其公之于众时,证书才会有价值。使用真实世界的数据集和你做的任何分析,都要写下来。保存到你的博客上,并在招聘网站上发布,征求社区的意见。这表明你愿意学习并且足够灵活的接受建议并将其用于你的项目。

你应该对实习的想法持积极的态度(无论你的经验水平如何)。你将学到很多关于数据科学团队如何工作的知识,这将使你在参加另一次面试时受益。


4.认为在比赛中的看到的是真实的工作数据
这是现在有抱负的数据科学家最大的误解之一。比赛和黑客马拉松为我们提供了干净和一尘不染的数据集(好吧 - 我有点过火,但你应该明白是什么意思)。你下载它们,并开始处理该问题。即使那些具有缺失值列的数据集也不需要你去使用你的脑细胞 - 只需要找出插补技术然后填充空白就可以了。

不幸的是,现实世界的项目数据并不像那样。而是有一个端到端的管道,涉及与一群人合作。你几乎总是要处理混乱和不干净的数据。关于花费70-80%的时间来收集和清理数据的老话是正确的。这是一个令人筋疲力尽的部分,你会(很可能)不喜欢这种事情,但它最终会成为例行公事的一部分。

解决方法:
讽刺的是,消除这种误解的关键因素之一是经验。你获得的经验越多(实习在这种情况下有很多帮助),你就能越好地区分两者。这是社交媒体派上用场的地方 - 与数据科学家联系并向他们询问他们的经验。

另外,我建议通过数据科学网站的平台,通过来自世界各地的数据科学家就这个确切的问题提供他们的意见。在竞赛排行榜上获得好成绩非常适合衡量你的学习进度,但是面试官会想知道你是如何优化算法以达到影响,而不是为了提高准确性。了解数据科学项目的工作原理,团队所拥有的不同类型的角色(从数据工程师到数据架构师),并从这个意义上构建答案。


5.过度关注模型的准确性,而不是适用性和可解释性
如上所述,准确性并非是企业所追求的。当然,一个能够以95%的准确度预测贷款违约的模型是好的,但是如果你无法解释模型是如何实现的,那些特征导致了高准确度的出现,以及你在构建模型时的想法,那么你的客户将拒绝使用它。

如果有的话,你很少会发现在商业应用中使用的深度神经网络。因为不可能向客户解释神经网络(更不用说深层)如何与隐藏层,卷积层等一起工作。第一个偏好是,并且将永远是确保我们能够理解正在发生的事情在模型下面是如何运作的。如果你无法判断自己的年龄,家庭成员数量或之前的信用记录是否会拒绝贷款申请,那么公司如何运营?

另一个关键方面是你的模型是否适合组织的现有框架。如果生产环境无法支持,使用10种不同类型的工具和库那么使用它们就会失败。你将不得不采用更简单的方法从头开始设计和重新训练模型。

解决方法:
防止自己犯这个错误的最佳方法是与业内人士交谈。没有比经验更好的老师了。选择一个领域(财务,人力资源,营销,销售,运营等),并与人们了解他们的项目如何运作。

除此之外,练习制作更简单的模型,然后向非技术人员解释它。然后为模型添加复杂性并继续这样做,直到你不知道下面发生了。这将教你明白何时停止,以及为什么简单模型总是在实际应用中被优先考虑。

6.在简历中使用太多数据科学术语

如果你以前这样做过这样的事情,那么你会明白我在说什么。如果你的简历目前有此问题,那么马上改过来吧!你可能知道很多技术和工具,但仅仅只是把它们列出来会让那些潜在的招聘经理望而却步。

你的简历是你获得的成就以及你如何做到的简介 - 而不是简单记下来的事情清单。当招聘人员查看你的简历时,他/她希望以简明扼要的方式了解你的背景以及你所取得的成就。如果页面的一半填充了模糊的数据科学术语,如线性回归,XGBoost,LightGBM,而没有任何解释,你的简历可能无法通过筛选。

解决方法:
消除简历杂乱的最简单方法是使用要点。仅列出你用于完成某些事情的技术(可能是项目或竞赛)。写下你是如何使用它的 - 这有助于招聘人员理解你的想法。

当你申请新的或入门级的工作时,你的简历需要反映你可以为业务增加的潜在影响。你将应用于不同领域中的职位,也许有一个固定的模板可能会有所帮助 - 只需更改一些部分,就可以确定你对特定行业的兴趣。

7.工具和库优先于业务
让我们举个例子来理解为什么这是一个错误。想象一下,你已经获得了有关房价的数据集,你需要预测未来房地产的价值。有200多个变量,包括建筑物数量,房间数量,租户数量,家庭规模,庭院大小,是否有水龙头等等。你很可能不知道某些变量的含义,但你删除了它之后,仍然可以构建具有良好精度的模型

但事实证明,该变量是真实场景中的一个关键因素。删除它是一个灾难性的错误。

拥有扎实的工具和库知识是非常好的,但它只会让你走到这一步。将这些知识与领域提出的业务问题相结合,才是真正的数据科学家介入的地方。你应该至少了解你感兴趣(或正在申请)的行业中所面临的基本挑战

解决方法:
这里有很多选择:
如果你正在申请特定行业的数据科学家角色,请了解该领域的公司如何使用数据科学
如果可能,搜索特定行业中的数据集并尝试对其进行处理并理解。这将是你简历中一个非常出色的一点
了解为什么领域知识是数据科学的主要推动力


8.没有花费足够的时间来探索和可视化数据
数据可视化是数据科学的一个非常美妙的方面,但许多有抱负的数据科学家更喜欢浏览它就进入模型构建阶段。这种方法可能会在比赛中发挥作用,但在实际工作中肯定会失败。了解提供给你的数据是你将要做的最重要的事情,你的模型的结果将反映出来你对数据理解的程度。

通过花时间了解数据集并尝试不同的图表,你将获得对你所负责解决的挑战或问题的有更深入的了解。通过这样做,你会惊讶地知道你可以获得多少洞察力!模式和趋势出现,如何讲述数据和数据中最好的部分。可视化是向客户展示结果的最佳方式。

作为一名数据科学家,你需要拥有一颗好奇心。这是关于数据科学的伟大之处之一 - 你越是好奇,你会问的问题就越多。这样可以更好地理解提供给你的数据,并有助于解决你最初不知道的问题!

解决方法:
练习!下次处理数据集时,请花更多时间在此步骤上。你会惊讶于它将为提供产生的洞察力。多问问题!询问你的经理,询问领域专家,在互联网上搜索解决方案,如果你没有找到,那就请在社交媒体上询问。有太多太多的选择了!


9.不适用结构化方法处理问题
结构化思维以多种方式帮助数据科学家:

它可以帮助你将问题语句分解为逻辑部分
它可以帮助你可视化问题描述是如何展开的,以及你如何设计你的方法
它有助于最终用户或客户以逻辑和易于理解的方式理解框架的顺序
有很多原因可以解释为什么拥有结构化思维帮助很大。你可以想象,没有一个结构化的思维方式是违反直觉的。你的工作和解决问题的方法都是随机的,当遇到复杂的问题时你会忘记自己的步骤等等。

当你参加数据科学面试时,你将不可避免地获得一个案例研究,猜测、估计和各种难题。由于面试室内充满压力的气氛和时间限制,面试官会考虑你的思维结构如何达到最终结果。在许多情况下,这可能是一个破坏者或润滑者,来决定你是否获得工作。

解决方法:
你可以通过简单的训练和规范的方法获得结构化的思维方式。

10.尝试一次学习多个工具
我已经见过这个太多次了。由于每个工具面临的困境和提供的独特的特性,人们倾向于尝试一次学习所有的工具。这是个坏主意 - 最终你不会掌握它们。工具只是执行数据科学的一种手段,并不是最终的目标。

解决方法:
选择一个工具并坚持使用下去,直到你掌握它为止。如果你已经开始学习R,那么不要被Python所诱惑。坚持使用R,从头到尾学习它,然后尝试将另一种工具融入你的技能组合中。你将通过这种方法学到更多。

每个工具都有一个很好的用户社区,你可以在遇到困难时使用它们,使用论坛来提问,在线搜索,而不要放弃。目的是通过该工具学习数据科学,而不是通过数据科学学习工具。

如果你仍未确定应该使用哪种工具,那么请去查看一下各个工具的优缺点,结合只身的情况,选择一个合适自己的工具


11.没有一致的学习方式
这一点适用于所有数据科学家,而不仅仅是新手。我们有容易分心的倾向。我们学习了一段时间(比如一个月),然后我们在接下来的两个月里休息一下。在哪之后想要找回最佳状态的感觉就像是一场噩梦。大多数早期的概念都被遗忘了,笔记也都丢失了,感觉就像我们浪费了几个月一样。

我个人也经历过这一点。由于我们正在进行的各种事情,我们找借口和理由不去学习。但这最终成为了我们的损失 - 如果数据科学就像打开一本教科书,然后我们只需要把所有东西都塞进去那么简单的话,那么今天每个人都将成为数据科学家。数据科学需要不断的努力和学习,这是人们直到为时已晚才意识到的这一点。

解决方法:
为自己设定目标。画出一张时间表并贴在墙上。计划好你想要学习的方式和内容,并为自己设定截止日期。例如,当我想学习神经网络时,我给了自己几个星期,然后通过参加比赛来测试我学到了什么。

你既然已经决定成为一名数据科学家,所以你应该准备好投入时间。如果你总是找借口不去学习,那么这个领域可能不适合你。


12.回避讨论和竞争
这是我们在上述几点中看到的一些事情的组合。有抱负的数据科学家往往羞于在线发表他们的分析,因为他们害怕受到批评。但是,如果你没有收到社区的反馈意见,那么你将不会成长为一名数据科学家。

数据科学是一个讨论,思想和头脑风暴至关重要的领域。你不能坐在孤岛中工作 - 你需要合作并理解其他数据科学家的观点。同样,人们不参加比赛,因为他们觉得自己不会获胜。这是一种错误的心态!你参加这些比赛来学习,而不是赢。获胜是奖励,学习是目标。

解决方法:
这很简单 - 开始参与讨论和比赛! 没有进入前5%也不要紧。如果你从整个事物中学到一种新技术,那么你就是凭自己的力量取得了胜利。


13.不注重沟通技巧
沟通技巧是数据科学家绝对必须拥有的最被低估价和最少被谈论的方面之一。我还没有遇到一个强调这一点的课程。你可以学习所有最新技术,掌握多种工具并制作最佳图表,但如果你无法向客户解释你的分析,那你就会说一位失败的数据科学家。

而且不仅仅是客户,你还将与不熟悉数据科学的团队成员合作 - IT,人力资源,财务,运营等。你可以确信,面试官会一直关注你这一方面。

假设你使用逻辑回归构建了信用风险模型。作为一个思考练习,花一点时间思考如何向非技术人员解释你是如何得出最终结论的。如果你需要使用过任何技术词汇,那么你需要尽快的学习这一点!

解决方法:
如今大多数数据科学家都来自计算机科学背景,所以我理解这可能是一项令人生畏的技能。但要成为一名成功的数据科学家并沿着阶梯向上爬,你别无选择,只能磨练自己个性的这一部分。

我觉得最有用的一件事就是向非技术人员解释数据科学术语。它可以帮助我衡量我对问题的清晰度。如果你在中小型公司工作,请在营销或销售部门找一个人并与他们一起做这个练习。从长远来看,它将极大地帮助你。

互联网上有大量的免费资源可以帮助你入门,但请记住,练习是软技能的关键。确保你今天开始这样做。

来源:CDA数据分析师研究院

351

主题

2万

金钱

3万

积分

版主

QQ
发表于 2019-5-30 22:46:02 | 显示全部楼层
不错啊,多多分享
dog rich, don't forget
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表