Go to file
jiangzhonglian 9ceb278dde Merge branch 'dev' of https://github.com/apachecn/kaggle 2018-08-21 09:33:10 +08:00
competitions 添加了: nlp-情感分析 添加了 ipynb 咋乱 全面的操作方式 2018-07-25 12:02:16 +08:00
docs 更新 kaggle-quickstart.md 2018-05-23 11:51:01 +08:00
src/python 添加:【推荐】特征工程全过程 2018-07-24 20:04:18 +08:00
static/images 更新 GitHub readme文档 2018-05-18 16:17:41 +08:00
LICENSE Initial commit 2017-10-13 04:57:08 -05:00
README.md Merge branch 'dev' of https://github.com/apachecn/kaggle 2018-08-21 09:33:10 +08:00

README.md

Kaggle

欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远

Note:

竞赛

train loss 与 test loss 结果分析

  • train loss 不断下降test loss不断下降说明网络仍在学习;
  • train loss 不断下降test loss趋于不变说明网络过拟合;
  • train loss 趋于不变test loss不断下降说明数据集100%有问题;
  • train loss 趋于不变test loss趋于不变说明学习遇到瓶颈需要减小学习率或批量数目;
  • train loss 不断上升test loss不断上升说明网络结构设计不当训练超参数设置不当数据集经过清洗等问题。
机器学习比赛奖金很高业界承认分数
现在我们已经准备好尝试 Kaggle 竞赛了这些竞赛分成以下几个类别

第1部分课业比赛 InClass

课业比赛 InClass 是学校教授机器学习的老师留作业的地方这里的竞赛有些会向public开放参赛也有些仅仅是学校内部教学使用。

第2部分入门比赛 Getting Started

入门比赛 Getting Started 给萌新们一个试水的机会没有奖金但有非常多的前辈经验可供学习。很久以前Kaggle这个栏目名称是101的时候比赛题目还很多但是现在只保留了9个最经典的入门竞赛手写数字识别、沉船事故幸存估计、脸部识别、Julia语言入门。

第3部分训练场 Playground

训练场 Playground里的题目以有趣为主,比如猫狗照片分类的问题。现在这个分类下的题目不算多,但是热度很高。

第4部分 研究项目(少奖金) Research

研究型 Research 竞赛通常是机器学习前沿技术或者公益性质的题目。竞赛奖励可能是现金,也有一部分以会议邀请、发表论文的形式奖励。

第5部分人才征募 Recruitment

人才征募 Recruitment 竞赛是赞助企业寻求数据科学家、算法设计人才的渠道。只允许个人参赛,不接受团队报名。

第6部分 大型组织比赛(大奖金) Featured

推荐比赛 Featured 是瞄准商业问题带有奖金的公开竞赛。如果有幸赢得比赛,不但可以获得奖金,模型也可能会被竞赛赞助商应用到商业实践中呢。

其他部分

  • 数据集: 数据集,可直接用于机器学习。
  • 核心思想: 在线编程。(猜测,基于 jupyter 实现)
  • 论坛: 发帖回帖讨论的平台
  • 招聘: 企业招聘数据科学家的位置

机器学习算法

常用算法选择

常用工具选择

解决问题的流程

  1. 链接场景和目标
  2. 链接评估准则
  3. 认识数据
  4. 数据预处理(清洗、调权)
  5. 特征工程
  6. 模型调参
  7. 模型状态分析
  8. 模型融合

数据预处理

  • 数据清洗
    • 去掉样本数据的异常数据。(比如连续型数据中的离群点)
    • 去除缺失大量特征的数据
  • 数据采样
    • 下/上采样假设正负样本比例1:100把正样本的数量重复100次这就叫上采样也就是把比例小的样本放大。下采样同理把比例大的数据抽取一部分从而使比例变得接近于11
    • 保证样本均衡
  • 工具 sql、pandas等

特征工程

特征处理

  • 数值型连续型数据离散化或者归一化、数据变化log、指数、box-cox
  • 类别型做编码egone-hot编码如果类别数据有缺失把缺失也作为一个类别即可。
  • 时间类间隔化距离某个节日多少天、与其他特征eg次数融合变成一周登陆几次、离散化eg外卖把时间分为【饭店、非饭店】
  • 文本类N-gram、Bag-of-words、TF-IDF
  • 统计型:与业务强关联
  • 组合特征

活动时间

时间段2017-11-15 2017-11-30

联系方式

项目负责人

项目发起人

项目贡献者(请手动添加)

加入方式

有任何建议反馈, 或想参与文档翻译, 麻烦联系下面的企鹅

  • 企鹅: 529815144(片刻) 1042658081(那伊抹微笑) 190442212(瑶妹)
  • ApacheCN - 学习机器学习群【629470233】ApacheCN - 学习机器学习群【629470233】
  • Kaggle (数据科学竞赛平台) | ApacheCN(apache中文网)