algonote

There's More Than One Way To Do It

いかにして人類は再び囲碁AIに勝利したか

人類が再びAIに勝つ方法

人間がAIに再び勝利した

2015年、AlphaGoがプロ囲碁棋士に勝利しました。その後汎化して将棋やチェスにも対応したAlphaZeroが2017年に出て、囲碁/チェス/将棋AIにおいて、機械の方が人間より強いと言う共通認識が形成されました。

実際、将棋の藤井聡太9段もゲーミングPCオタクでAIを使って棋力を伸ばしたことが知られています。

一見ゲームAIの進化はAI同士の対戦にフェーズが移ったように思えたところに、アマチュア囲碁棋士であるKellin Pelrine氏が囲碁AIのKataGoに勝利したことを知りました。

AIに奪われる仕事のランキングが出回る昨今において、人類が再びAIに勝利した事例は稀有なのではと思い、今回取り上げてみます。

Adversarial Policies Beat Superhuman Go AIs

Kellin PelrineはPhDでもあり、使った手法のコードや論文はAdversarial Policies Beat Superhuman Go AIsとして公開されています。ICML 2023に採択。

AlphaGoのコードは公開されていないので、公開されている囲碁AIとしては最強のKataGoに弱点はないか調べた論文です。発見された手法はcyclic-exploit: ドーナッツ状に輪を作るとAIの誤認を誘えるというもので、プログラムを破るプログラムを開発する研究の中で、人間でもAIに勝てる手法が見つかりました。

15回対戦して14勝で他の囲碁AIにも使えるので汎用的。ただし、最新のKataGoでは対策が施された模様。

どうやって弱点を見つけたのか

著者の方がかなりしっかりした解説をYouTubeにあげられています。

KataGoが簡単な詰碁を解けなかったのをきっかけにadversarial局面をまっさらな初期盤面からでも生み出せるのではないかという仮説から実験。

素のKataGoとツリーサーチ併用のKataGoでは後者の方が強いので後者の自己対戦データを教師に素のKataGoのネットワークを模倣学習させ、世代を重ねていくと人を超えるKataGoが得られる。攻撃ネットワークでも同様に、素のネットワークとツリーサーチ併用のネットワークを組みわあせて、世代を重ねていった。

一点違うのはツリーサーチは通常のモンテカルロツリーサーチではなくAdversarial モンテカルロツリーサーチ(A-MCTS)な点。また、いきなり強い世代と戦わせるのではなく弱いAdversarialネットワークと戦わせてから徐々により強い世代と戦わせるカリキュラム学習を行った。

使用ルールがプロのルールと違う

一方で批判もあって、使用した囲碁のルールがTromp-Taylorルールで現在日本や中国で使われているルールとは違うものようです。Rdditに作者が降臨して少し議論がされています。

AlphaGo=> AlphaZeroの差分の一つは人間の棋譜を使用せず自己対戦による強化学習を行ったことですが、自己対戦は稀な手筋に弱く、実際他の定石であるMi Yuting's flying daggerは防げないことが多いようです。KataGoでは元から手動でそう言うパターンの棋譜を読み込ませているので対策できているとか。

所感

ちょっと人類に有利な調整はあるようですが、人類が再びAIに勝利したという事実はキャッチーですね。

囲碁ネタで言うとヒカルの碁のドラマが中国で制作されており、面白かったです。

www.tbs.co.jp