资讯专栏INFORMATION COLUMN

为什么Kaggle不会让你成为一名出色的数据科学家?

evin2016 / 293人阅读

摘要:缺少投资回报率的分析环节公司正在加大数据科学技能方面的投入。通常,成功的分析项目需要数据科学算法与投资回报率紧密相关。并不涉及这方面的分析,而只专注预测,并不考虑如何把数据科学结果应用于投资回报率。

作者 | Pranay Dave
CDA 数据分析师原创作品,转载需授权

毫无疑问,Kaggle是非常适合学习数据科学的平台。许多数据科学家在Kaggle上投入了大量时间。

但同时,你不应该只依靠Kaggle来学习数据科学技能。

以下就是当中的原因:

1.数据科学不仅仅是预测

Kaggle主要针对预测相关的问题。然而许多现实问题是与预测无关的。

例如,许多公司都想知道用户流失的最常见途径。这些类型的问题需要了解不同的数据类型和用户接触点,例如web导航、计费、客服中心交互、商店访问等问题。同时还需要识别重要事件,例如超额计费或导航错误。在确定所有事件后,你需要应用路径算法来了解导致用户流失的常见路径。解决这类问题不能仅靠预测算法,而需要能够根据事件构建时间线的算法。

同样,解决许多其他问题也需要预测之外的技能。能够解决预测性问题是很强大的,但作为数据科学家你需要解决多种类型的问题。现实情况中有更多类型的问题需要解决,因此你不能仅局限于Kaggle,还需要用其他技能解决现实的数据科学挑战。

2.无法提高图算法方面的技能

社交网络分析、影响预测、社区分析、欺诈网络分析等,这些有趣的分析问题都是数据科学家需要解决。解决这类问题需要有关图形算法的知识,如Pagerank、Modularity、ShortestPath、EigenVectorCentrality等等。

网络或社区类型问题在Kaggle中很少见。解决图形和网络方面问题需要节点和链接相关数据,而Kaggle中大多数数据并不是这种形式的。

当然,你可以将问题转换为使用图算法,但这种情况很少。Kaggle上缺少这类的比赛,这也表明了于数据科学家日常需要解决问题的巨大差距。

3.无法提高算法可解释性

算法的可解释性越来越重要。你可以使用高大上的方法和最复杂的算法,但如果无法解释算法是怎样得到预测的,在企业中这将是一个大问题。这种说不清缘由的算法被称为“黑匣子”算法。

使用黑盒算法存在一定的隐患,而且也可能造成法律方面的问题。假设,你开发了一种非常精确的算法集合来预测信用风险。在投入生产时,它将用于预测信贷风险。其中有些人的信用得分会很低,被拒绝贷款的人有权知道他们申请被拒的原因。如果算法无法提供解释,则可能会产生法律问题。

在Kaggle比赛中,获胜者是基于准确性,而不是基于可解释性。这意味着比赛中数据科学家可以使用复杂的算法来保证高准确性,而不必关心可解释性。这种方法能够赢得比赛,但在企业的数据科学项目中就行不通了。

4.缺少投资回报率的分析环节

公司正在加大数据科学技能方面的投入。他们希望数据科学项目能够提供投资回报率。通常,成功的分析项目需要数据科学算法与投资回报率紧密相关。

其中一个例子是预测性维护,其中能够对设备故障进行预测。假设设备的故障率为10%,那么你需要派维护人员去进行检查吗?可能并不需要。但如果故障率为95%,那是肯定需要的。

然而在实际情况中,故障率通常为55%,63%等,这时就不确定了。如果公司派维护人员检查所有这些设备,则可能产生巨大的成本。如果不派人检查,则会有很大的设备故障风险。

那么故障率的阈值应该是多少呢?这时就需要计算投资回报率了。因此非常需要数据科学家给出当中的阈值,从而帮助公司确定相关决策。

Kaggle并不涉及这方面的分析,而只专注预测,并不考虑如何把数据科学结果应用于投资回报率。

5.不会涉及到模拟和优化问题

关于模拟和优化算法,比如系统动态仿真、基于代理模拟或蒙特卡罗模拟等应该是所有数据科学家的必备技能。金融优化、路线优化、定价等许多问题都是数据科学家需要解决的问题。

以价格预测为例,你可以使用机器学习,根据季节、日期、地点、竞争对手价格等数据来预测产品价格。但机器学习算法预测的价格是否是最优价格?也许不是。为了确定最优价格,你首先要确定优化目标。

优化目标可以设为利润优化。在这种情况下,你需要确定提供最佳利润的价格范围。为了留住用户,这样的价格不能设太高。同时,为了保持良好的利润率,也不应该太低。

因此,你需要通过优化算法来确定最佳价格范围。如果预测价格在价格范围内,那么机器学习的结果是可以接受的,否则应被拒绝。

在Kaggle上,通常不会给出利润优化等优化目标。因此,当中涉及的问题仍然局限于机器学习,而并没有探索优化方面的问题。

6.无法体验模型部署和操作

假设你的模型在Kaggle排行榜位居前列。然而部署模型是完全另外一回事,这是在Kaggle上无法体验的。

生产部署模型会涉及到docker、kubernetes等技术。虽然数据科学家并不需要成为docker和kubernetes方面的专家,但至少要能够熟练使用。很多情况下,数据科学家需要用docker创建评分管道。

操作和部署还包括定期监控模型性能,并在必要时采取改进措施。假设有一个产品推荐模型。你在某个时间点观察到,由于推荐而导致销售额下降。那么问题是出在模型上吗?还是其他方面呢?

数据科学家需要参与到模型部署环节,从而获得获得真实而丰富的体验。

结语

数据科学家需要涉及算法可解释性、投资回报率评估、优化等技能。在这一系列问题中,你将解决各种有趣的现实问题,从而更全面的提高数据科学相关技能。

对于数据科学家而言,不要仅局限于Kaggle,而是要从其他角度解决不同类型的数据科学问题。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/19886.html

相关文章

  • Kaggle冠军经验分享丨如何用15个月冲到排行榜首位

    摘要:你是如何开始参加比赛的正如之前所说的,我一直在阅读大量机器学习和深度学习方面的书籍和论文,但发现很难将我学到的算法应用于小型数据集。机器学习中,你对哪个子领域最感兴趣我对深度学习的各种进步都很感兴趣。 showImg(https://segmentfault.com/img/bVboxKz?w=800&h=600); 作者 Kaggle Team中文翻译 MikaCDA 数据分析师...

    AnthonyHan 评论0 收藏0
  • 机器学习入门

    摘要:本文使用对超过条文本做主题抽取,一步步带你体会非监督机器学习方法的魅力。学习资料一份较全面的机器学习的学习资料,涵盖了系列,,,,等等。学习使用的过程中,我自己也在补充着机器学习和数据挖掘的知识。 特征工程完全总结(Python 源码) 那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。文中分享了人们对特征工程的归纳和总结以...

    waterc 评论0 收藏0
  • 成为靠谱数据学家——从提出正确问题开始

    摘要:我认为提出正确的问题和定义问题陈述是许多数据科学初学者包括我面临的一项挑战。在本文中,我将与你分享作为数据科学家,该如何提出正确问题并定义问题陈述。我们的任务是帮助他们将问题构建成数据科学问题,从他们的角度看问题。 showImg(https://segmentfault.com/img/bVbnjxm?w=900&h=600);作者 | Admond Lee翻译 | MikaCDA ...

    dendoink 评论0 收藏0
  • 如何为你深度学习任务挑选最合适 GPU?

    摘要:年月日,机器之心曾经推出文章为你的深度学习任务挑选最合适从性能到价格的全方位指南。如果你想要学习深度学习,这也具有心理上的重要性。如果你想快速学习深度学习,多个廉价的也很好。目前还没有适合显卡的深度学习库所以,只能选择英伟达了。 文章作者 Tim Dettmers 系瑞士卢加诺大学信息学硕士,热衷于开发自己的 GPU 集群和算法来加速深度学习。这篇博文最早版本发布于 2014 年 8 月,之...

    taohonghui 评论0 收藏0
  • 8步从Python白板到专家,从基础到深度学习

    摘要:去吧,参加一个在上正在举办的实时比赛吧试试你所学到的全部知识微软雅黑深度学习终于看到这个,兴奋吧现在,你已经学到了绝大多数关于机器学习的技术,是时候试试深度学习了。微软雅黑对于深度学习,我也是个新手,就请把这些建议当作参考吧。 如果你想做一个数据科学家,或者作为一个数据科学家你想扩展自己的工具和知识库,那么,你来对地方了。这篇文章的目的,是给刚开始使用Python进行数据分析的人,指明一条全...

    Zachary 评论0 收藏0

发表评论

0条评论

evin2016

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<