JDLA主催「CVPR2025技術報告会」発表資料

先日、日本ディープラーニング協会主催(JDLA)の「CVPR2025技術報告会」にてモルフォの技術者が登壇いたしました。本記事では、当日の資料を共有するとともに、その発表内容をダイジェストでお届けします。

発表内容のダイジェスト

概要

CVPR(The IEEE / CVF Conference on Computer Vision and Pattern Recognition)は、コンピュータビジョン(画像認識技術)の分野で世界最高峰とされる国際学会です。昨年に引き続きまして、CVPRの重要性や、今年のトレンドの分析、モルフォの技術者が注目した分野や論文について詳しく解説しました。

トレンド分析

CVPR2025でも、昨年と同じく生成AIマルチモーダルGaussian Splatting基盤モデルの分野のトレンドは継続しており、多くの論文が出されていました。 それに加え今年は特に、2D静止画の解析に留まらず、「動画」や「3D」といった、より高次元で複雑なデータを扱う研究がトレンドの中心になりつつあることが鮮明になりました。

CVPR2025の頻出ワードのマッピング

トレンド深堀り①3D再構成

複数の2D画像から3D空間を復元する「3D再構成」は、今年のCVPRで最もホットな分野の一つでした。Best Paperに輝いたVGGTをはじめ、3D Student Splatting and Scooping(SSS)、MegaSaM、DIFIX3D+といった注目論文が発表され、技術の大きな進展を推し進めています。発表では、これらの論文が3D再構成技術の発展の中でそれぞれどのような役割を果たし、どのように関連しているのかを解説しました。

3D再構成におけるCVPR2025の主要な3D関連論文の位置づけ

トレンド深堀り②マルチモーダル

画像に加えて言語や音声など複数の情報を統合して扱うマルチモーダル技術も、昨年に引き続き主要トレンドです。今年は、AIを物理世界と相互作用する中で学習させる「Embodied AI」への発展に加え、技術の「オープンソース化」と「公平性」も大きなテーマとなりました。

その象徴が、Best Paper Honorable Mentionsを受賞した"Molmo and PixMo"です。これまで非公開が常識だった最先端クラスの視覚言語モデル(VLM)が、学習データやコードを含め完全にオープンソース化されました。研究の透明性と再現性を高め、技術の民主化を大きく前進させる成果として、ひときわ注目を集めています。

トレンド深堀り③動画の認識・生成

時間的な文脈を持つ動画データの認識・生成も、今年の大きなトレンドとなりました。特に、これまでの課題であった長時間の動画の認識・生成において大きな進展が見られました。

長時間の動画を扱う上では、認識時の「効率的な情報処理」と、生成時の「一貫性の維持」が重要です。認識分野では、SEALが長い動画の中から意味的に重要な部分に効率良く注目する手法を提案しています。生成分野では、StreamingT2Vが独自のアーキテクチャにより約2分という長尺かつ高品質な動画生成を初めて実現し、大きな注目を集めました。

テクニカルディープダイブ①新世代のアーキテクチャMambaの動向

CNNやTransformerと競合する新たなアーキテクチャとして、主に自然言語処理の分野で注目されているMamba。その波が、いよいよ画像処理の学会であるCVPRにも押し寄せています。

Mambaは系列データの扱いに長けていますが、これを2次元データである画像にどう適用するかが大きな課題です。CVPRでは、画像の読み取り順序(スキャン方向)を工夫することでこの課題に対処する研究が目立ちました。また、Mambaの特長をそのまま発揮すべく、大規模(多次元)データ対応やマルチモーダル入力の統合、順序構造を持つデータへの応用といった研究も多く見られました。

"GroupMamba"[1]におけるスキャン方向の模式図

テクニカルディープダイブ②NTIRE 2025

CVPRでは、メインの論文発表だけでなく、特定のテーマを深掘りする「ワークショップ」も重要なコンテンツです。

今回はその中から、画像の復元や高画質化技術を競うコンペティション「NTIRE (New Trends in Image Restoration and Enhancement workshop and associated challenges)」に注目しました。発表では、今年のチャレンジでトップ成績を収めた"Team AllForFace"の手法を紹介し、最新の画質改善技術の動向を解説しました。

NTIRE Challengeにおける"Team AllForFace"による処理の概略図[2]

発表資料の共有

当日の発表資料の全体を共有させていただきます。

発表動画については以下のリンクから是非ご視聴ください。

YouTube

引用

[1]

Abdelrahman Shaker, Syed Talal Wasim, Salman Khan, Juergen Gall, Fahad Shahbaz Khan. "GroupMamba: Efficient Group-Based Visual State Space Model". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025. Available: https://openaccess.thecvf.com/content/CVPR2025/papers/Shaker_GroupMamba_Efficient_Group-Based_Visual_State_Space_Model_CVPR_2025_paper.pdf

[2]

Zheng Chen, Jingkai Wang, Kai Liu, Jue Gong, Lei Sun, Zongwei Wu, Radu Timofte, Yulun Zhang, Jianxing Zhang, Jinlong Wu, Jun Wang, Zheng Xie, Hakjae Jeon, Suejin Han, Hyung-Ju Chun, Hyunhee Park, Zhicun Yin, Junjie Chen, Ming Liu, Xiaoming Li, Chao Zhou, Wangmeng Zuo, Weixia Zhang, Dingquan Li, Kede Ma, Yun Zhang, Zhuofan Zheng, Yuyue Liu, Shizhen Tang, Zihao Zhang, Yi Ning, Hao Jiang, Wenjie An, Kangmeng Yu, Chenyang Wang, Kui Jiang, Xianming Liu, Junjun Jiang, Yingfu Zhang, Gang He, Siqi Wang, Kepeng Xu, Zhenyang Liu, Changxin Zhou, Shanlan Shen, Yubo Duan, Yiang Chen, Jin Guo, Mengru Yang, Jen-Wei Lee, Chia-Ming Lee, Chih-Chung Hsu, Hu Peng, Chunming He. "NTIRE 2025 Challenge on Real-World Face Restoration: Methods and Results". Available: https://arxiv.org/pdf/2504.14600