AutoML ハンズオンまとめ #dllab

AutoML ハンズオンに参加しました. AzureでAutoML

f:id:hiromichinomata:20200124152337p:plain:w200

事前準備

チュートリアル:Python SDK で初めての ML 実験を作成するにしたがってAzure上でJupyter Notebookを動かせるようにしておきます。内部でAzureのCLIを使う必要があり、Jupyter Notebookで認証パスとコードが小さく出るのでそれはやる必要がある。

ハイパーパラメーター・チューニングのチュートリアルを終了するとAzure上で結果が見れ、各パラメーターの違いが見れます。 f:id:hiromichinomata:20200124131922p:plain

Azure Machine Learning Studioは先週日本語化されたとか

Azure MLにはAutomated Machine LearningとHyperdriveの2機能が存在

テーブルデータのみ対応. NIPS 2018で発表されたベイズ最適化と協調フィルターを使った手法をベースにしており、D〇〇aRobotと比べると賢い(との主張)

プライバシー保護とONNX変換もサポートしている.

f:id:hiromichinomata:20200124152932p:plain:w400

分類、回帰、時系列のモードがある. Previewのdeep learningは英語onlyでBERTが動くとのこと

テーブルデータに限らない

モデル解釈にはいろんな手法が存在しているが、そのインターフェイスはバラバラ. Interpret-Communityが各モデル解釈を統合されたAPIで提供しており、Azure Machine Learningでも使うことができる。

モデルの解釈には

の2種類がある.

f:id:hiromichinomata:20200124154817p:plain

モデル解釈UIはこんな感じ

AzureのAutoMLには

の2種類がある.

コードベースのほうが細かくパラメータがチューニングでき例えばGUIだとアンサンブルを抜くことができないとか. ライブラリは2週間に一度ver upされるそうです

Azureのデータフレームは独自形式のためpandasで使うためにはto_pandas_dataframeする必要がある. その他Sparkもサポートしているとのこと。

計算自体はdocker imageを使用しているためオンプレで実行可能とのこと. おもしろいですね。

f:id:hiromichinomata:20200124153216p:plain 内部ではXGBoostやLightGBM, RandomForestなどを実行しているみたいです

また、defaultの挙動だと

低優先度インスタンスだと8割引. データセンターの空きリソースを使うためシャットダウンされますが. USなど大きいデータセンターだとシャットダウンされにくいとか
Azure MLとは別の枠組みでMicrosoft ResearchがNeural Network Intelligenceを公開しており、各種アルゴリズムを試せる