kaggle学习路线图  (未完结)

从零开始使用kaggle,记录期间遇到的问题

avatar_cover Alex Xiang
2024-09-05 256阅读

注册kaggle

  • 用的时Edge浏览器,需要安装Header Editor扩展,主要是用来对Google的一些API地址做跳转,不需要代理也可以使用,并且后来证明启动代理反而会显示不了人机验证。扩展装好之后需要配置规则,可以填这个:https://azurezeng.github.io/static/HE-GoogleRedirect.json
  • 注册时如果显示不了Google人机验证,需要检查一下是否有代理在运行,有的话停掉试试。

配置kaggle

  • 基本信息配置好之后,需要创建自己的token,

第一个竞赛:Titanic - Machine Learning from Disaster

因为我们是零基础,初期在kaggle上主要是学习,第一个竞赛可以选择Titanic,在个人主页左侧选competitions,在竞赛页面点击Getting Started,第一个竞赛项目就是我们需要的:Titanic - Machine Learning from Disaster,当然也可以直接搜索这个竞赛。

竞赛页面推荐的教程是 Alexis Cook’s Titanic Tutorial ,这个教程使用的是随机森林模型(random forest model),基于决策树。

关于Titanic竞赛,其他比较适合学习的教程包括:

另一个入门赛:House Prices - Advanced Regression Techniques

这个竞赛是房价预测,通常使用回归(regression)来解决这个问题。竞赛的数据包括已经成交的将近1500座房子的80个特征,我们需要根据这些特征来预测房子的销售价格。

同样,在竞赛的说明页面也给了一个教程的链接:House Prices Prediction using TFDF。TFDF是TensorFlow Decision Forests的缩写,也就是TensorFlow的决森林,有兴趣可以按这个教程学习一下,不过我打算先以PyTorch为主,先看看有没有别的合适的教程。

在这个竞赛的页面点击code,按评论数排序,排在前面的都是一些热度比较高的解决方案,其中有一个热度非常高的notebook是Comprehensive data exploration with Python,这是一个针对房价数据做分析的方法,并没有竞赛的提交数据,我们完全可以拿来当一个教程来学习。另一个高分的代码是Stacked Regressions : Top 4% on LeaderBoard,这个方案用的是堆叠的回归模型,使用的是sklearn,对于传统的模型,sklearn是非常好的选择。

参考链接

其他

- google Gemma模型

Filter blog posts by tag kaggle