Kaggle Tokyo Meetup #3に参加しました。
tkm2261さんが素晴らしいレポートを書いていますが、まぁ自分の言葉で。
Instacart 2nd Place Solution by onoderaさん
商品のリーオーダーをする人としない人を予測するコンペ。productとNone両方出せる仕様。手法はReorderとNoneそれぞれの予測機を合わせた後にF1 Score最大化。しきい値はxgboostで求めている。新規ユーザーはNoneになりやすい、Cola買っていない時にFridge-Pack-Colaを買っているユーザーがいた。
かわいいハロウィン仕様のゆるふわスライドに対して硬派にガンガン進むのが印象的だった。あれだけ頭抜けて勝っていて最後抜かれるのは自分なら1週間へこむ気がする。Kaggleへのうちこみ具合がすごかった。
Santander Product RecommendationのアプローチとXGBoostの小ネタ by Jack(rsakata)さん
24の金融サービスの前月までの利用情報から新規利用をあてるコンペ。手法はbinary classificationとして扱い前月利用者は除去。1ヶ月毎に学習しアンサンブル。ただし、季節性のあるプロダクトはもっと前のデータを利用。他にも履歴を元に2-gram等追加の特徴量を作成している。
ノートPCのみ、ほぼRとXGBoostのみというストイックさが素敵だった。ちょうど自分の環境もメモリ8GBなので同じような手法でやってみたい。ほぼ画像系のコンペにしか出ていなかったので、feature engineeringのやり方、XGBoostの概説やコツはかなり参考になった。
画像認識コンペ(UNIQLO)にdeep learning以外の手法で殴りこんでみた by mamas16kさん
服の色分類のコンペ。単純な色だけでなく"natural"とかがある。手法はXGBoostとLightGBMのスタッキング。33の色空間を使って知覚均等性に対処、組み合わせの特徴量を追加、確率補正を行いメトリック最適化。
色空間てそんなにあるのか。探したらCNNで色空間変えてるColor Recognitionの論文もあり、得意な色が違うようなので3位の人のようにDeep Learningの手法でも組み合わせると面白そう。ImageNetとか色空間変えてアンサンブルすると精度上がるんだろうか。
Carvana 3rd Place Solution by lyakaapさん
Carvana Image Masking Challenge | Kaggle
車のセグメンテーションをするコンペ。U-NETのEmbeddingの部分を複数のDilated Convolutionをマージさせたネットワークで差し替え。また擬似ラベルを使用してデータを増やしている。2日学習がかかるシングルモデルを組み合わせた5x@1536x1024と6x@1920x1280のアンサンブルが最終モデル。
CRFも試してたのか。失敗例をきちんと分析していたり、問題に対して真摯に取り組んだゆえの結果という印象。自分が使ったベースラインだとDilated Convolution化だけでは精度上がらなかったので、擬似ラベル等他のちょっとずつの改善の積み重ねもかなり効いている気がする。
LT
5分で打ち切りということもなく、LTという名の短めの普通の発表。実践的な内容が多くすぐにでも使える気がする(スキルが追いつけば)。
Doki Doki Literature Club、怖いってツイートみた気がするけど違うんだろうか。
- データを可視化する一般的なテク(?)~heatmapの拡張~ kaggle meetup #3
- Heatmap with change-cell-size feature
- Kaggle Tokyo Meetup #3 Lightning Talk
- Conda: Myths and Misconceptions
- Personalized Medicine Redefining Cancer Treatment Solution
全体を通して
メーカー勤務や保険のアクチュアリーの人がいたり、普通のプログラミング言語系の勉強会と違い多種多様な人がいて面白かった。海外だと言語非依存のカンファレンスも結構あるようなので、こういう目的志向の勉強会がもっと増えるといいなぁと感じました。