AIMSデータサイエンス初心者講座 #6 に登壇しました

昨日,AIメディカル研究会のイベント「AIMSデータサイエンス初心者講座 #6『Kaggle入門』」に登壇しました.

Kaggleの初心者向けコンペ House Prices: Advanced Regression Techniques をテーマに, データ可視化,特徴量エンジニアリング,モデリング,評価,そして提出まで,実際のKaggleコンペの流れを経験してもらいました.

さらに,私の書いたコードをKernelで共有し,受講者自身にそれをForkしてもらって進めてもらうという形式を取ることで,Kernelの使い方にも慣れてもらいました.

今回の講座で特に強調したのは,バリデーションの重要性です. データを予測するときは,必ず訓練,バリデーション,テストデータに分割すること,モデルの評価はテストデータで行う必要があること,など,初心者が失敗しやすいポイントを詳しく説明しました.

Kaggleはバリデーションを学ぶための最高の教材なので,予測モデルを構築して実運用する前に,一度Kaggleで失敗しながら学んでもらいたいです.

今回使用したKernelはこちらです.

www.kaggle.com

Kernelの中で扱っている内容は以下の通りです.もしこのKernelが参考になったらupvoteお願いします笑

  • pandas_profilingseabornを使ったEDA
  • Label encodingやScalingなどの簡単な前処理
  • Ridge RegressionとRandom Forestによるモデリング
  • Hold-out Validationと5-fold CVの実装
  • 特徴量の重要度のプロット

最後に,AIメディカル研究会では,学生を中心に機械学習やその医療応用についての勉強会やイベントを行なっています. どなたでも参加していただけるので,お気軽にご参加ください.

開催日程や内容は,Twitter(@ou_aims)やconnpassなどで定期的に告知しています.