CVPR 2020 参加報告 前編

こんにちは。CTO室リサーチャーの芳賀です。

モルフォでは最先端の画像処理・機械学習に関する研究のキャッチアップのため、国内外問わず毎年各種学会に技術系の社員を派遣しています。 今回は画像処理の国際学会である「CVPR 2020」に芳賀とCTO室の齋木で参加してきました。 今回は学会の概要、および私が注目した研究について紹介をしたいと思います。

記事は2回に分けて書いております。 前編として学会の概要と論文3本の紹介をします。 後編として論文4本の紹介と全体の感想を書く予定です。

CVPR 2020の概要

CVPR (Computer Vision and Pattern Recognition) はコンピュータビジョン・パターン認識の国際的なトップカンファレンスです。 毎年、世界中の大学や企業の研究機関が論文を提出し、厳しい審査を通った論文を発表することができます。 世界的に流行しているコロナウィルスの影響もあって今回は完全バーチャル開催となりました。 参加者専用のバーチャルサイトにて発表ごとに専用のページが設けられていて、そこで発表動画 (スライド形式やZoom会議形式) を聴講する形になっています。

統計

今回のCVPR 2020の参加者は約7000名程度と言われています。 去年のCVPR 2019年までの約5年は年々かなりのペースで増加していましたが、やはりコロナウィルスの影響もあってか2018年度水準まで落ちています。 しかし、投稿論文数は6424件、採択論文数は1467件で、引き続き増加傾向を維持しています。

参加者の推移 - [1]の動画内より引用
論文投稿数/採択数の推移 - [1]の動画内より引用

プログラム

CVPRの日程は大きく「Main Conference」「Tutorial/Workshop」の2つに分けられます。 「Main Conference」は6/16 - 6/18の3日間、「Tutorial/Workshop」はそれを挟んだ6/14, 15, 19の3日間で開催されました。

前者の「Main Conference」は採択された論文の各著者が研究内容を発表する場です。 発表形式は「Oral」「Poster」に分けられ、採択された論文のなかでも重要度が高いものがOralとして発表することができます。 今回はバーチャル開催ということで、Oralは5分間の動画・Posterは1分間の動画として発表内容がまとめられてしました。 1467件もの論文が研究分野ごとにセッションに分けられていて、3つのセッションが同時平行で進行しました。

次に「Tutorial/Workshop」ですが、これはより細かいテーマごとに半日または一日を通して発表があるプログラムです。 Tutorialが初学者向けの講義形式、Workshopがオムニバス形式の第一人者のトーク・最新研究の紹介というものでした。 Workshopの中にはKaggleのような特定のタスクの精度を競うチャレンジを開催していて、優秀な成績を残したチームはそのWorkshopで発表できるというものもありました。

質問等は各発表ページにQ&A用のZoomのリンクが設置されていて、特定の時間帯に繋げば著者に直接質問ができます。 またコメント欄も用意されているので、テキストベースですが開催中はいつでも質問ができるようにもなっていました。

「Main Conference」の合間にはMicrosoft社CEOのSatya Nadella氏、Amazon Web Service社SVPのCharlie Bell氏のトークがありました。 動画はYoutubeにて公開されています。企業のこれからやコロナ時代をどう生き抜くかといった内容がインタビュー形式でなされているのでぜひ視聴してみてください。


Fireside Chat with Satya Nadella


CVPR 2020 Keynote: Charlie Bell

オンライン開催における時差の配慮

当初の開催場所がシアトルであったため、アメリカ太平洋夏時間 (PDT/UTC-0700) でのスケジュールで進行しました。 したがって、アジアにとっては真夜中の時間帯での開催となり、なかなかリアルタイムで参加しにくい時間帯となってしまいます。 そのため、Main Conferenceにおいては「2nd Showing」として12時間ずらしたスケージュルも用意されていました。 また、各種Tutorial/WorkshopなどもZoomでの講演を録画して参加者のサイトなどに公開してくれるものも多く、いつでもアクセスできる状態になっていました。 公式動画のアナウンスにおいてもスケジュール通りに参加する方法の他、気になった発表をサイト内検索を用いて自由に覗く参加の仕方も推奨されており、非常に自由な国際会議でした。

論文紹介

ここからは、私が個人的に気になった発表について軽く紹介したいと思います。

CvxNet: Learnable Convex Decomposition

Author: Boyang Deng, Kyle Genova, Soroosh Yazdani, Sofien Bouaziz, Geoffrey Hinton, Andrea Tagliasacchi.

3D物体データを凸多面体の集合として表す手法を提案した論文です。 3Dデータ表現としては点群 (point cloud) やメッシュ (mesh) 、ボクセル (voxel) などが主ですが、前者は適切な後処理が必要で推論時に弱く、後者はデータ量が多く学習時に弱いという特徴がありました。 そこで、下図のような半平面 (hyper plane) を用いた分割で凸多面体を構成することを考えます。

半平面による凸多面体の構成 - [2] Fig2より引用

入力としては二次元の画像や点群データを想定しています。 入力を凸多面体で近似する半平面の分割の仕方を学習し、一意性などを考慮したロスを設計しています。 一般の非凸形状へは、いくつかの凸多面体の合併として表現するよう拡張できます。 推論時は半平面分割の双対表現・凸包計算を用いながら凸多面体の集合として3D物体を構成できます。 凸多面体同士の衝突計算は効率的なアルゴリズム*1が存在しているため、高速な物理演算が可能になります。

結果は下図に示しています。 CvxNetの出力を見ると他の手法と比べてみても、正解に近い形状を構成できていることがわかります。 また、凸多面体の要素 (primitive) 数をかなり減らしても正解とのF値*2が高く保たれていることも論文で示しています。

出力結果比較 - [2] Fig12より引用

ちなみに、この論文はCVPR 2020 AWARDにおけるノミネート論文になっており、Best Student Paperに輝いたBSP-Netとも手法が関連しています。 こちらも合わせて読むことでより理解が深まるかもしれません。

Deep Optics for Single-Shot High-Dynamic-Range Imaging

Author: Christopher A. Metzler, Hayato Ikoma, Yifan Peng, Gordon Wetzstein.

光学系を組み込んだ単一画像からHDR画像*3を生成するについての論文です。 HDR画像を作る手法としては複数の異なる露光画像を組み合わせる方法や、特殊なセンサーを用いる方法などがありますが、それぞれモーションブラーの影響やキャリブレーションコスト等の課題に対処する必要があります。 近年では機械学習を用いて1つのLDR (Low Dynamic Range) 画像からHDR画像を推定する方法も発展していますが、白飛び部周辺のアーティファクトによる劣化が課題としてありました。 この論文ではPSF (点拡がり関数) を学習に組み込んで、光学系とCNN (U-Net) を同時に最適化するEnd-to-Endな処理を考案しています。

学習時はHDR画像*4を入力とし、PSFを含んだ光学系のシミュレーションを通してLDR画像を得て、それをCNNに通してHDR画像を出力します。入力との再構成誤差をネットワークのCNNおよび光学系シミュレーションのパラメータに伝搬させて学習させています。 実用時は学習で最適化した光学系を実際に作りカメラに組み込むことで、1枚の写真からCNNを通ってHDR画像を得ることができるという仕組みになっています。

ネットワーク全体図 - [3] Fig2より引用

出力結果は下図のようになっています。 左から3列目が本手法の最適化された光学系で測定されたLDR画像で、白飛び部分が空間方向に分解されていることがわかります。 左から4列目が同じく最適化したCNNの出力で、従来 (左から2列目) より高品質なHDR画像が生成できています。

出力結果比較 - [3] Fig7の一部より引用

大部分の領域が白飛びしたシーンには失敗する等制約はあるとのことですが、1枚HDR画像生成に強いカメラが今後作られるかもしれませんね。

Deep White-Balance Editing

Author: Mahmoud Afifi, Michael S. Brown.

ホワイトバランスが崩れている画像からでも様々なホワイトバランス設定の画像を生成する手法についての論文です。 著者らのprior workとしてk近傍法を用いたホワイトバランスの補正研究*5があり、本論文はDeep LearningによるEnd-to-Endな処理で性能向上を図っています。 ネットワークのモデルは下図のように1つのEncoderと複数のDecoderというU-Net構成で、それぞれのDecoderが異なる色温度 (ホワイトバランス設定) の画像を生成します。

ネットワーク全体図 - [4] Fig2より引用

本論文によると、

  • AWB:調整されたホワイトバランス
  • Incandescent WB:色温度2850Kのホワイトバランス (電球色に近い)
  • Shade AWB:色温度7500Kのホワイトバランス (昼光色に近い)

の3つのDecoderを用意し、中間の色温度にはIncandescent WBとShade WBとの出力の間を線形補間することで作っています。 推論時はまず縮小画像においてネットワークの出力を得たあと、縮小画像の入力出力間の色変換関数を計算し、元サイズの画像に色変換関数を適用することで効率的な処理を実現しています。

結果は以下の図で、既存のホワイトバランス補正アルゴリズムと比べてもキレイに補正された画像が出力されていることがわかります。 複数のデータセットでGroundTruth画像との二乗誤差や色差の指標である⊿E 2000において、従来を超える数値を達成したことを示しています。

出力結果比較 - [4] Fig9より引用

応用例として純粋なホワイトバランスの調整だけでなく、他の学習タスクにおけるData Augmentationや昨今発展しているAdversarial Attackにも有効であるとのことで、既存のタスクの認識精度の向上が期待されますね。

(後編につづく)

参考文献

[1] CVPR2020 Opening Video. CVPR2020 Opening Video - YouTube
[2] Boyang Deng, Kyle Genova, Soroosh Yazdani, Sofien Bouaziz, Geoffrey Hinton, and Andrea Tagliasacchi. CvxNet: Learnable Convex Decomposition. In Proc. CVPR 2020.
[3] Christopher A. Metzler, Hayato Ikoma, Yifan Peng, and Gordon Wetzstein. Deep Optics for Single-shot High-dynamic-range Imaging. In Proc. CVPR 2020.
[4] Mahmoud Afifi, and Michael S. Brown. Deep White-Balance Editing. In Proc. CVPR 2020.

*1:GJKアルゴリズムと呼ばれている。

*2:PrecisionとRecallの調和平均。IoUと似ているが、F値のほうがズレ (FalsePositiveとFalseNegative) に対し許容的。

*3:High Dynamic Rangeのことで、明るい領域と暗い領域の両方で広い輝度幅を持たせた画像のこと。

*4:カメラに入ってくる情報としてHDR画像を使用。

*5:65000個の画像データサンプルから、入力画像に近いホワイトバランス画像を特徴量空間内で見つける手法。