Kaggle Tokyo Meetup #5に参加しました。
Avito 9th Place Solution & 中国Kaggle事情
広告の需要を予測するコンペ。テーブルデータはアグリゲーションだけでなく加減乗除のfeatureも追加、テキストはself trainedなものが有効、アンサンブルはLinear quiz blendingを使用。
実際のコードベースで解説されており、再現性高そうでよかった。KaggleのLBの桁がもう一桁減ったらLinear quiz blendingはどのくらい悪くなるんだろう。
以前中国のコンペサイトに登録した際にパスポートの写真をあげないと参加できない仕様だったのが個人的には印象的。
Home Credit 2nd place solutions ~ お通夜から始まったドラマ ~
http://ireko8.hatenablog.com/entry/2018/11/30/221030
顧客のdefault riskを予測するコンペ。ikiri_DSは12人のチームで8人が日本人。3タイプのアウトプットをblendingしてsubmit.
一人一人違ったvalueを出していてすごい。他のコンペにも転用できそう
Santander
Santander Value Prediction Challenge 17th Solution
Santander 8th Solution~気合いでとったソロゴールド~ https://www.dropbox.com/s/bjju15vkb9ewsj5/20181201_santander.pdf
顧客の取引価格を予測するコンペ。大きなLeakageがあった。
big shakedownこわい。0には気をつけた方がいいですね。
PFDet: 2nd Place Solution to Open Images Competition
とにかくでかいデータ量のコンペ。2 stageのモデルをベースにExpert model, sigmoid loss, cosine annealing, co-occurrence lossなどを適用した。
推論時のminimum requirementはどのくらいなんだろう。1GPUにのる?
LT
これがLT?というくらい内容の濃い発表が多かった。
- LightGBMを少し改造してみた ~カテゴリ変数の動的エンコード~
- 日本初の競技機械学習大会"Cpaw AI Competition"の運営
- kaggler-ja driven learning
- RSNA Pneumonia Detection Challenge 6th Place Solution
- TGS Salt Identification Challenge 12th place solution
所感
これだけ学べる差分の大きい勉強会は少ない印象。機械学習まわりの変化が速すぎるというのもありますが。
最近Kaggleやれていないので明日から本気出す(死亡フラグ