ICML 2021 参加報告

こんにちは、CTO室リサーチャーの長山と申します。

モルフォでは最先端の画像処理・機械学習に関する研究のキャッチアップのため、国内外問わず毎年各種学会に技術系の社員を派遣しています。今回は機械学習の国際会議「International Conference on Machine Learning 2021(ICML 2021)」に長山と、同じくCTO室リサーチャーの鈴木・中川で参加しました。本投稿では、はじめに学会の概要について説明し、次に私が注目した論文3本を紹介します。

ICML 2021 概要

ICML(International Conference on Machine Learning)は機械学習に関する総合的な国際会議であり、トップカンファレンスの一つとして認知されています。毎年7月頃に開催され、世界各国の研究機関や企業から、学術研究者やエンジニア、起業家などの様々なバックグラウンドを持つ参加者が一堂に会し、機械学習のあらゆる側面における最先端の研究成果を発表しています。第38回となる今年度はオーストリアのウィーンで開催予定でしたが、世界的なCOVID-19の流行の影響により完全バーチャル開催となりました。

統計

投稿論文数5,513本に対して採択論文数は1,184本(うちLong talks 166本、Short talks 1,018本)、採択率は21.5%でした。直近5年の投稿論文数は年1,000本程度のハイペースで増加しており、今後もこの傾向は続くものと思われます。また、採択率は例年通りの2割程度の狭き門で、やや低下傾向にあるものの大きな変化はありません。

図1. 投稿論文数/採択率の推移。'16年度の投稿論文数はデータなし。統計データの引用: [1]

プログラム

今年度は2021/7/18(日)から7/24(土)の7日間1で開催され、以下のようなスケジュールでした。

  • 7/18: Expo day
  • 7/19: Tutorial
  • 7/20-7/22: Main Conference and Invited Talks
  • 7/23-7/24: Workshop

「Main Conference」は、採択論文の各著者が研究内容をの発表を行うプログラムです。発表形式は大きくオーラルとポスターに分かれていて、重要度の高い論文が主にオーラルとして発表されています。今年度のオーラルはLong talksとShort talksの二種類があり、Long talkではプレゼン+質疑応答の計20分、Short talkはプレゼンのみで計5分の発表スケジュールでした。ポスターセッションはオンラインビデオ通話サービス「Gather.Town」を用いて、レトロRPG風の仮想空間上で質疑応答を行う仕組みとなっていました。

論文紹介

Globally-Robust Neural Networks

Authors: Klas Leino, Zifan Wang, Matt Fredrikson

はじめに、敵対的摂動に対してロバストなクラス分類器の設計手法に関する論文を紹介します。

近年の高性能なクラス分類モデルは深層ニューラルネットワーク(DNN)ベースの手法が主流で、優秀な人間が分類したときの精度を超えていると言われています。しかしながら、正解データに加えることで分類モデルを"騙す"ような微小なノイズ(図2.)の存在が知られていて、敵対的摂動(adversarial perturbation)と呼ばれています。

図2. 敵対的摂動の実例、GoogLeNet[2]によるImageNetデータセットの分類結果。"パンダ"クラスに分類される画像(左)に敵対的摂動(中央)を加え"テナガザル"への誤分類を引き起こす(右)。引用: [3]

このような敵対的摂動の存在は、自動運転や顔認証システムなどで悪用されると脅威をもたらすおそれがあります。そのため、敵対的摂動を加えられても誤分類を起こしにくい(=ロバスト性を持つ)モデルが求められていますが、既存のDNNベースのロバスト分類手法は小さいモデルでも学習時間およびメモリのコストが高い問題があります。

本論文では、既存のクラス分類モデルに組み込むことで大域的ロバスト性を保証可能にする手法(GloRo Nets)を提案しています。少し不正確な表現になりますが、クラス分類問題における大域的ロバスト性とは有限な幅の決定境界を持つ性質です(図3. 左)。

図3.(左)大域的ロバスト性、(右)⊥クラスのロジット。引用: [4]

本手法の基本的なアイディアはとても単純で、ベースとなるモデルに「ロバスト性の悪さ」を表すクラス(⊥)を新しく追加して学習を行います。このときのモデルをGloRo Netと呼びます。GloRo Netの⊥クラスのロジット出力2  y_{\perp} は、定数 \epsilon と各クラスのロジット出力 {y_i}とリプシッツ定数 {K_i} を用いて

 \displaystyle
    y_{\perp} = \max_{i\neq j}\left\{y_i+ (K_i+K_j)\epsilon\right\}

と定めます。直感的には、入力点を少しだけ(距離  \epsilon)動かしたときに取りうる競合クラスの相対的な最大ロジットを表します(図3. 右)。訓練ステップでは、ベースモデルのロジットに⊥クラスを加えたベクトルのソフトマックス出力と、教師データの one-hot ベクトル表現との損失関数を用いてモデルの重みを更新します。このように定めたGloRo Netは大域的ロバスト性が保証されます。そしてクラス分類結果は、⊥クラスに分類される場合を除き、元の分類モデルと同じ結果を返します。

著者らは摂動を加えたデータセット(MNIST/CIFAR-10/Tiny-ImageNet)で画像分類実験を行い、既存のロバスト分類手法と同等以上の精度(VRA3)を達成することを確認しました。また、べき乗法による効率的なリプシッツ定数の上界推定アルゴリズムを用いることで、既存手法と比べて非常に高速かつ低メモリ使用量の学習を実現しました。

Understanding Self-Supervised Learning Dynamics without Contrastive Pairs

Authors: Yuandong Tian, Xinlei Chen, Surya Ganguli

次に、最優秀論文選外佳作(outstanding paper honorable mention)の一つを紹介します。

負例を必要としない自己教師あり学習(Self-Supervised Learning; SSL)において表現の崩壊4が発生しない理由を理論的に解析した論文です。SSLとは、訓練データ自身から教師を作り出すような学習手法であり、代表的な手法として対照学習(Contrastive Learning; CL)が知られています。典型的なCLでは元となる訓練データ(=アンカー)から正例と負例を作り出し、正例には近づけ負例からは遠ざけるようにアンカーの表現を学習します。一方で、近年では負例を使わずに正例のペアだけを使って表現を獲得する手法が提案されていて、非対照学習(Non-Contrastive Learning; NCL)と呼ばれています。

図4. 非対照学習のモデル図。引用: [5]

本論文では、図4. で示されるようなOnlineTargetPredictorの3つのコンポーネントからなる非対称な双子ネットワーク5のNCLモデル(BYOL[6]/SimSiam[7])を対象として解析を行いました。OnlineTargetは異なる重みを持つ同一アーキテクチャの表現エンコーダであり、PredictorOnlineからTargetへ表現の変換を行います。訓練ステップでは、1枚の入力画像からサンプルした2枚のデータ拡張画像をそれぞれのネットワークに渡し、Predictorの出力をTargetに近づけるようにPredictorOnlineを更新します。Targetについては、出力にstop gradientを挿入し重みの更新を行いません。

著者らは問題設定の単純化のために、各コンポーネントはバイアス項のない線形モデルの条件で解析を行いました。この設定の上で、各コンポーネントの固有値に関する勾配流6を考えることで以下の事実を示しました。

  • stop gradientを使わない場合、Onlineの固有値は0に収束 → 学習は確実に失敗する
  • あるしきい値が存在し、学習率がしきい値以下ならばOnlinePredictorの固有値はそれぞれ非0の値に収束 → 表現の崩壊は発生しない

また、著者らはこれらの議論をもとに、Onlineの重みから直接Predictorを更新するアルゴリズム(DirectPred)を提案しました。画像クラス分類タスク(STL-10/CIFAR-10、ImageNet)で実験を行い、確率的勾配降下法(SGD)で学習する従来手法より高い精度を達成したことを示しました。

Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies

Authors: Paul Vicol, Luke Metz, Jascha Sohl-Dickstein

最後に最優秀論文(outstanding paper)を紹介いたします。

再帰型ニューラルネットワーク(RNN)やハイパーパラメータ探索などのアルゴリズムは、一般にループ構造を持つ計算グラフとしてモデル化できます。これらのモデルのパラメータ最適化タスクにおいて誤差逆伝播法を用いると、勾配消失・爆発などの問題を生じやすいことが知られています。進化戦略(Evolution Strategy; ES)は有限差分法に基づく確率論的な勾配推定を用いた最適化手法であり、このような計算グラフのケースでもうまく動作する一方で、ループ展開した計算グラフの全系列を用いるので計算コストが高い欠点があります。本論文では、計算グラフの短く打ち切った部分系列から勾配を高精度で推定し、パラメータ更新を高速化した最適化アルゴリズムを提案しています。

図5. ループ展開された計算グラフのモデル図。引用: [8]

ループ展開した計算グラフのモデル図を図5.に示します。パラメータを  \boldsymbol{\theta} 、時刻  t における状態を  \boldsymbol{s}_{t} 、パラメータ最適化の目的関数を L_{t}(\boldsymbol{s}_{t}; \boldsymbol{\theta}) で表しています。既存手法の ES アルゴリズムでは目的関数の勾配を、正規分布に従うランダム変数  \boldsymbol{\epsilon}^{(i)} \sim N(0, \sigma^2 \boldsymbol{I}) を用いた有限差分近似

 \displaystyle
     \hat{\boldsymbol{g}}^{\mathrm{ES}} = \frac{1}{\sigma^2 N} \sum_{i=1}^N \boldsymbol{\epsilon}^{(i)}L(\boldsymbol{\theta} + \boldsymbol{\epsilon}^{(i)})

によって推定します。ES アルゴリズムは勾配が陽に計算できないブラックボックス関数に対しても適用可能な利点がありますが、計算グラフの全系列を使用するため高い計算コストがかかります。途中で打ち切った計算グラフを用いると計算コストは削減できますが、推定量に無視のできないバイアスが残ることが知られています。

本論文で提案された持続的進化戦略(Persistent Evolution Strategy; PES)アルゴリズムでは、パラメータ  \boldsymbol{\theta} に加えるランダム変数  \boldsymbol{\epsilon} を時刻  t ごとに独立化した勾配推定量

 \displaystyle
    \hat{\boldsymbol{g}}^{\mathrm{PES}} = \frac{1}{\sigma^2 N}\sum_{i=1}^N\sum_{t=1}^T\boldsymbol{\xi}_{t}^{(i)}L_{t}(\boldsymbol{\theta}_1 + \boldsymbol{\epsilon}_{1}^{(i)},\ldots,\boldsymbol{\theta}_t + \boldsymbol{\epsilon}_{t}^{(i)})

によって最適化を行うようにESを改良しました7。ここで、 \boldsymbol{\xi}_t  = \sum_{t=1}^T \boldsymbol{\epsilon}_t はランダム変数の累積値です。推定量  \hat{\boldsymbol{g}}^{\mathrm{PES}} は、打ち切った計算グラフを使った場合でも勾配  \nabla_{\boldsymbol{\theta}} L(\boldsymbol{\theta})の不偏推定量となることが示されています(詳細は論文をご覧ください)。

著者らはいくつかのシナリオで実験を行い本手法の有効性を示しました。そのうちの一つが多層パーセプトロン(MLP)を用いた MNIST 分類器のハイパーパラメータ最適化です。このシナリオでは、打ち切った計算グラフを用いて4層MLPの学習率のメタ学習8 とハイパーパラメータチューニングを同時に行い、PESは既存手法(ES)より良いメタ損失に収束することを示しています。

全体の感想

昨今の機械学習のトレンドを学ぶ上でとても役立つ貴重な機会となりました。バーチャル開催の国際会議への参加は今回が初めてでしたが、オーラルセッションを好きなタイミングで見返すことができるシステムは便利だと感じました。

参考文献

[1] Statistics of acceptance rate for the main AI conferences, https://github.com/lixin4ever/Conference-Acceptance-Rate

[2] C. Szegedy, W. Liu, Y. Jia, and P. Sermanet, "Going deeper with convolutions," in IEEE conference on computer vision and pattern recognition (CVPR), 2015, [Online]. Available: https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Szegedy_Going_Deeper_With_2015_CVPR_paper.html

[3] I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” in International Conference on Learning Representations (ICLR), 2015, [Online]. Available: https://arxiv.org/abs/1412.6572

[4] K. Leino, Z. Wang, and M. Fredrikson, "Globally-Robust Neural Networks," in International Conference on Machine Learning (ICML), 2021, pp. 6212–6222 [Online]. Available: https://proceedings.mlr.press/v139/leino21a.html

[5] Y. Tian, X. Chen, and S. Ganguli, “[Presentation] Understanding self-supervised learning dynamics without contrastive pairs,” in International Conference on Machine Learning (ICML), 2021, [Online]. Available: https://icml.cc/media/icml-2021/Slides/10403.pdf

[6] J.-B. Grill, F. Strub, F. Altché, C. Tallec, P. H. Richemond, E. Buchatskaya, C. Doersch, B. A. Pires, Z. D. Guo, M. G. Azar, B. Piot, K. Kavukcuoglu, R. Munos, and M. Valko, "Bootstrap your own latent: A new approach to self-supervised Learning," in 34th Conference on Neural Information Processing Systems (NeurIPS 2020), 2020, [Online]. Available: https://arxiv.org/abs/2006.07733

[7] X. Chen, and K. He, "Exploring Simple Siamese Representation Learning," in IEEE conference on computer vision and pattern recognition (CVPR), 2021, [Online]. Available: https://arxiv.org/abs/2011.10566

[8] P. Vicol, L. Metz, and J. Sohl-Dickstein, “Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies,” in International Conference on Machine Learning (ICML), 2021, pp. 10553–10563 [Online]. Available: http://proceedings.mlr.press/v139/vicol21a.html


  1. 米国太平洋標準時(PST)を基準とした場合。日本標準時(JST)では7/18(日)の夜から7/25(日)の朝にかけての時間帯となります。
  2. 出力層の活性化関数(ロジスティック関数やソフトマックスなど)の直前における値。
  3. Verified-Robust Accuracy。 ロバスト( \approx y_{\perp}が小さい)かつ正しく分類されたデータの割合。
  4. 入力画像の種類に関わらず、常に似通った表現を推論するような"退化"したモデルの状態を表します。
  5. 一般的にはシャムネットワーク(Siamese Network)と呼ばれています。"Siamese" は差別的な意味合いを含むことから、本稿ではあえて異なる名称を用いています。
  6. 勾配降下法による最適化の手続きは、学習率+0の極限においてパラメータに関する時間発展の微分方程式として扱うことができます。これを勾配流(gradient flow)と呼びます。
  7. 表記の変更(notation shift)を行っています。新しい表記では、時刻  t におけるパラメータを  \boldsymbol{\theta}_{t}、目的関数を L_{t}(\boldsymbol{\theta}_1,\ldots ,\boldsymbol{\theta}_t)としています。ここで  \boldsymbol{\theta}_t = \boldsymbol{\theta}, \forall t です。状態変数 \boldsymbol{s}_tは表記を省略しています。
  8. 適切な解に早く到達するような学習率自体を機械学習によって求めるタスク。