algonote

機械学習とか

Kaggle Tokyo Meetup #3 感想&まとめ #kaggle_tokyo

Kaggle Tokyo Meetup #3に参加しました。
tkm2261さんが素晴らしいレポートを書いていますが、まぁ自分の言葉で。

Instacart 2nd Place Solution by onoderaさん

商品のリーオーダーをする人としない人を予測するコンペ。productとNone両方出せる仕様。手法はReorderとNoneそれぞれの予測機を合わせた後にF1 Score最大化。しきい値はxgboostで求めている。新規ユーザーはNoneになりやすい、Cola買っていない時にFridge-Pack-Colaを買っているユーザーがいた。

かわいいハロウィン仕様のゆるふわスライドに対して硬派にガンガン進むのが印象的だった。あれだけ頭抜けて勝っていて最後抜かれるのは自分なら1週間へこむ気がする。Kaggleへのうちこみ具合がすごかった。

Santander Product RecommendationのアプローチとXGBoostの小ネタ by Jack(rsakata)さん

24の金融サービスの前月までの利用情報から新規利用をあてるコンペ。手法はbinary classificationとして扱い前月利用者は除去。1ヶ月毎に学習しアンサンブル。ただし、季節性のあるプロダクトはもっと前のデータを利用。他にも履歴を元に2-gram等追加の特徴量を作成している。

ノートPCのみ、ほぼRとXGBoostのみというストイックさが素敵だった。ちょうど自分の環境もメモリ8GBなので同じような手法でやってみたい。ほぼ画像系のコンペにしか出ていなかったので、feature engineeringのやり方、XGBoostの概説やコツはかなり参考になった。

画像認識コンペ(UNIQLO)にdeep learning以外の手法で殴りこんでみた by mamas16kさん

服の色分類のコンペ。単純な色だけでなく"natural"とかがある。手法はXGBoostとLightGBMのスタッキング。33の色空間を使って知覚均等性に対処、組み合わせの特徴量を追加、確率補正を行いメトリック最適化。

色空間てそんなにあるのか。探したらCNNで色空間変えてるColor Recognitionの論文もあり、得意な色が違うようなので3位の人のようにDeep Learningの手法でも組み合わせると面白そう。ImageNetとか色空間変えてアンサンブルすると精度上がるんだろうか。

Carvana 3rd Place Solution by lyakaapさん

Carvana Image Masking Challenge | Kaggle

車のセグメンテーションをするコンペ。U-NETのEmbeddingの部分を複数のDilated Convolutionをマージさせたネットワークで差し替え。また擬似ラベルを使用してデータを増やしている。2日学習がかかるシングルモデルを組み合わせた5x@1536x1024と6x@1920x1280のアンサンブルが最終モデル。

CRFも試してたのか。失敗例をきちんと分析していたり、問題に対して真摯に取り組んだゆえの結果という印象。自分が使ったベースラインだとDilated Convolution化だけでは精度上がらなかったので、擬似ラベル等他のちょっとずつの改善の積み重ねもかなり効いている気がする。

LT

5分で打ち切りということもなく、LTという名の短めの普通の発表。実践的な内容が多くすぐにでも使える気がする(スキルが追いつけば)。

Doki Doki Literature Club、怖いってツイートみた気がするけど違うんだろうか。

全体を通して

メーカー勤務や保険のアクチュアリーの人がいたり、普通のプログラミング言語系の勉強会と違い多種多様な人がいて面白かった。海外だと言語非依存のカンファレンスも結構あるようなので、こういう目的志向の勉強会がもっと増えるといいなぁと感じました。