你好,欢迎来到神州头条
神州头条
如何开始 Kaggle 比赛之旅
时间:2019-05-21 14:35   来源:互联网   责任编辑:李文信(实习生)

神州头条核心提示:本文为 AI 研习社编译的技术博客,原标题 : How to Start Competing on Kaggle 作者 Chirag Chadha 翻译 IinIh 编辑 邓普斯杰弗、王立鱼 原文链接: http://towardsdatascience.com/how-to-begin-competing-on-kaggle

本文为 AI 研习社编译的技术博客,原标题 :

How to Start Competing on Kaggle

作者  Chirag Chadha

翻译  IinIh      编辑  邓普斯•杰弗、王立鱼

原文链接:

http://towardsdatascience.com/how-to-begin-competing-on-kaggle-bd9b5f32dbbc

如果刚刚完成你的第一个机器学习课程,不确定如何开始使用新学的知识。那你应该从简单的Iris数据集开始,或者是练习下Titanic的数据(这可能是最先应该做的事)。但是有什么更有趣的,能直接上手,和网络上的陌生人一起比赛并获得奖金呢?

如果你正在读这篇文章,你应该已经知道Kaggle是一个数据科学的比赛平台,在这里大家可以使用结构化(数值或者类别的表格化数据)和非结构化数据(比如文字,图像,音频),参与到大量机器学习话题的比赛中,并且带着获取奖金和人人向往的Kaggle金牌的目标。尽管你可能会说和别人一起比赛会有所胆怯,但是最重要的是学习到更多的知识,而不是关注比赛结果。带着这样的心态,你会发现比赛会变得有趣,收获满满,甚至上瘾。

  第一步选择一个比赛找到一个有兴趣的比赛

在你开始一个新的比赛的时候,这是要考虑的最重要的事。你需要给自己大约两个月的时间来解决一个问题,并真正熟悉数据的来龙去脉。这需要花费大量的时间。选择了一个你没有很大兴趣的比赛,只会让你变得更加没有兴趣,在加入比赛的几个星期之后就放弃了。在比赛时间轴的早期加入,会给你更多的时候去了解背景知识,在与社区成员一起解决问题的各个阶段提高学习质量。

聚焦在学习上

如果你发现对比赛感到沮丧并认为这太困难了,那么就要尽可能地集中精力学习并持续向前。专注于学习材料中,这样你可以学习更多。当你不在担心在排行榜上的排名时,也许你就能找到一个突破口。

尝试去理解分数排名最高的kernels的每一行代码。

问问自己是否有浅显的方法能够提高他们的结果。比如说,你是否可以创建新的特征来提升模型的分数?是否可以稍微调整他们使用的学习率来获得更好的性能?去寻找一些垂下来的水果,而不要尝试重新发明轮子。这种心态能极大加速你的学习,同时确保你不会变得沮丧。

检查规则中奇怪的规定

这一点没有和其他内容那么重要,尽管如此还是要注意下。最近的一个比赛中包含了下面这样一条规则:

[ 你的提交] 中不能包含机密信息和商业秘密,不能是已注册的专利或者是正在提交申请专利的应用.

一个用户在论坛中说到,这个对规定会使得使用dropout变成违法的,这个技术已经由Google申请了专利。

  Kernels和讨论

在整个比赛过程中你需要常常去查看下Kernels和讨论区。

从查看一些EDAs(Exploratory Data Analyses?, Exploratory Data Analysis’s?, Exploratory Data Analysii?)开始,来判断你在这个领域和话题的兴趣程度。在你浏览别人的成果时,一边思考适合这个模型的数据的新想法,比如说特征工程等等。

在讨论区中“欢迎”的帖子中提供了非常好的背景知识。

获取在这个比赛领域中的知识一定是有好处的,这能够帮助你深入理解你的模型怎样工作,能极大地帮助到你的特征工程。我通常在比赛开始之前会花费一周或者两周的时间去阅读尽可能多的材料理解这个问题。为了帮助到大家,大部分的比赛组织者会在论坛中创建入门的帖子,并给出这个领域中重要的论文/文章的链接。他们也许还会提供如何解决大数据集的提示,和数据的基本见解。当您获得有关手头问题的更多信息时,这些流程总是值得检查并回顾。

  探索数据分析

   投稿邮箱:tougao@sznfzj.com   详情请访问神州头条: https://www.sznfzj.com

>>相关文章
神州头条版权与免责声明
①凡注明"来源:XXX(非在线)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,本网不承担此类稿件侵权行为的连带责任。
②本站所载之信息仅为网民提供参考之用,不构成任何投资建议,文章观点不代表本站立场,其真实性由作者或稿源方负责,本站信息接受广大网民的监督、投诉、批评。
③本站转载纯粹出于为网民传递更多信息之目的,本站不原创、不存储视频,所有视频均分享自其他视频分享网站,如涉及到您的版权问题,请与本网联系,我站将及时进行删除处理。
神州头条
合作媒体