アリババの大規模事例に学ぶ
前口上
プログラミング関係の訳書というと米国のものが多いですが、アリババやテンセントのような中国企業は日本のIT企業より大きく、またプライバシー意識の差から機械学習のデータが集めやすかったりしてアメリカでもない事例が中国語の技術書にのっていることもあります。
英語で出版された本の日本語の訳書を買う場合翻訳コスト分高くなるのが通常ですが、中国語に翻訳された場合マス割引で逆に安くなることもしばしば。
今回アリババの中の人が書いた『阿里巴巴B2B电商算法实战』という本をざっと読んだので紹介します。なお自分の中国語能力はHSK4級程度でそれほど高くはありません。
阿里巴巴B2B电商算法实战
阿里巴巴B2B电商算法实战はキャッチーに訳すとアリババのB2B eコマースを支える技術でしょうか。タイトルにB2Bと書いてあるのでてっきり複雑なロールだったり、法人向けビジネスを行う上での法律の制約について書いてあるかと思ったのですがそういうものはなく、どちらかというと機械学習やデータサイエンス周りについて解説されています。
以下目次です
- 第1章 电商四位一体 eコマース4つで1つ
- 第2章 系统工程 システム構成
- 第3章 搜索算法 検索アルゴリズム
- 第4章 推荐算法 レコメンドのアルゴリズム
- 第5章 营销算法 マーケティングのアルゴリズム
- 第6章 多模态内容场景与端智能 マルチモーダルとエッジAI
- 第7章 认知推理 認知的推論
- 第8章 全域中控 グローバルコントロール
飛ばし飛ばし見ていきます
第1章 电商四位一体 eコマース4つで1つ
SEO, フィード、広告などのどういう要素を抱えるシステムなのかの解説。とりわけReal Time Bidding, 適正価格の推定の話
時系列予測にはHolt-Winters 法という手法があるんですね。消費者、商品、場所、商で四位一体
第2章 系统工程 システム構成
Search Plannerでアグリゲートする検索基盤。英語だとこの辺の話ですかね。
HadoopとTensorFlowを使用
第3章 搜索算法 検索アルゴリズム
双方向LSTMを使ってタグ推定、NLPの話. 中国語もnグラムなんですね.
GBDTとDeep Learningを使ってclick through rateを予測
第4章 推荐算法 レコメンドのアルゴリズム
推薦の話。ユーザーベースと商品ベースと。グラフEmbeddingベースのDeepWalkとword2vecを比較。
DIEN: Deep Interest Evolution Networkは調べたらAAAI2019の手法ですね。
第5章 营销算法 マーケティングのアルゴリズム
紅包(お年玉)の配布の話。予算が限られる中誰に配ると効果的かのナップサック問題
第6章 多模态内容场景与端智能 マルチモーダルとエッジAI
マルチタスクの機械学習モデルの話。短尺動画の推薦の話。TikTok的な。
metapath2vecは異種混合ネットワークでの手法
第7章 认知推理 認知的推論
HMMを使った固有名詞認識の話、機械学習の蒸留の話。
Hintonが〜Bengioが〜
第8章 全域中控 グローバルコントロール
全体での回遊の最適化の話。PID制御がWebで出てくるのはメイカーの国ならでは。
所感
ちょっと中国語の読解力が弱いのでもっと習熟度上がったら再読したいです。
antのIPOが中止になったり、中国政府による縛りによって必ずしも順風満帆ではないですが、ユーザー数の多さだったり、日本のメガベンチャーがギガになる際に学べる部分はありそうだと思いました。