Kaggle Advent Calendar 2017、8日目の記事です。
KaggleやDeepAnalytics向けの動画講座をいくつか受けたので、簡単な紹介と比較。
入門: ビジネスケースで学ぶPythonデータサイエンス入門
DeepAnalyticsを運営しているオプトによる講座。
Udemy上に動画が上がっており、普通にとると有料だが、以前きた案内メールに従うとDeepAnalytics会員は無料で見れる。
言語はPythonでAnaconda, Matplotlib, Jupyter Notebookの環境構築から実際にDeepAnalyticsに予測を提出するまで網羅している。中身はだいたいPandas講座とscikit-learn講座。XGBoostとかはないが欠損値の処理だったり、ハイパーパラメーターのグリッドサーチだったり基本的なところをおさえている。
この手の動画で見捨てられがちなWindows環境もサポートされており、簡単なPython基礎もあるので、プログラミングとかあんまりやったことないですという人でもいけるかもしれない。
ただ、その分テンポは遅め。read_csvを懇切丁寧に"r","e","a","d","アンダースコア","c","s","v"とスペル一つ一つ読み上げていくので、お年寄り向けのパソコン講座を受けている気分になる。
東証一部上場企業勤務の「パソコン苦手で」という中間管理職男性に今流行りのデータサイエンスを教えるにはベスト。DeepAnalyticsやっているのはITリテラシー高めの層だと思うのでもう少しサクサク進んでもいいかもしれない。
初級: Kaggle入門 Porto Seguroコンペ
Kaggle Masterのtkm2261さんによるKaggle講座。 Kaggleのコンペ、Porto Seguroを題材にしている。
GCPアカウントの作り方からsubmitするまで網羅しており、ちょうど上の講座のKaggle版といった印象。こちらも言語はPython。Anacondaのインストールから解説しているのは同じだが、こちらはターミナル上で作業を進めている。
内容としてはPnadas成分は薄めで、ログのとり方、XGBoostの勘所に重きを置かれている。過去のコンペのコードの見方の説明あり。
中級: BigQueryでKaggle入門
同じくtkm22261さんによる動画。KaggleのCorporación Favorita Grocery Sales ForecastingというコンペをBigQuery単体でやるという取り組み。
Pythonで書かれた既存カーネルをSQLに移植してサブミットまでもっていっている。Window関数だけでなくユーザー定義関数(UDF)まで(うっかり)使用している。
BigQueryで検索するとBigQueryで150万円溶かした人の顔 等、こわい話がでてくるが、ちゃんと課金料計算すればKaggleのデータサイズだと有用な選択肢であることがわかる。集計系のガチSQLを駆使しているので普段ORMで守られているWeb系エンジニアが所詮SQLだろうと思って挑むと撃沈する(した)。
基礎的なことはSoftware Design 2017年11月号のSQL特集でも復習できるがそれでもまだ不足。Amazonでビッグデータ分析・活用のためのSQLレシピを買って読んだ後、再度挑んだらよく理解できたのでおすすめ。
上級: How to Win a Data Science Competition: Learn from Top Kagglers
ロシアのGoogleとしばしばよばれるYandex勤務のKaggle Grandmasterたちによる講座。 Certificateをとるとなると有料だが、動画視聴自体は無料。お金払ってもいい内容だが、過去自分がHinton先生の機械学習講座落第した経験からすると、課題は動画視聴以上に(5倍くらい?)時間をとかすので覚悟が必要。
前処理のしかた、EDAのやり方、各種指標がどのライブラリーに含まれていてそれを最適化するにはどうすればいいか、アンサンブルはどうやればいいか等全部入り。
Normalizedされた特徴から元の特徴を戻していたり、このパターンはあのコンペとあのコンペにあってといった説明が多く終始プロフェッショナルな印象。StratificationやStacking、Probability calibrationといった実際に使えそうなテクニックが数多く紹介されている。
完全に余談だが、途中の説明で唐突にこのすばのめぐみんが出てくる。
所感
入門から上級まで万遍なく動画講座が揃ってきてとてもよい。
はじめてSQL好きになれた。