(文献紹介)デブラー手法の紹介

こんにちは、CTO 室リサーチャーの三宅と申します。 モルフォでは、学術論文の輪講を行う「ジャーナルクラブ」という有志による活動があります。今回は、このジャーナルクラブで発表した内容をご紹介いたします。

イメージセンサーの露光中にカメラが動くことで、写真がボケてしまうことをモーションブラーといいます。モーションブラーは、スマホを手持ち撮影すると日常的に生じてしまう現象です。光学的な解決策のひとつとして、シャッタースピードを速くして露光時間を短くするというのがありますが、露光量が減るため今度はノイズが目立ってしまうというトレードオフがあります。したがって、画像処理によってモーションブラーを除去(デブラー)し、写真をきれいにする手法が必要になります。今回紹介するのは、古典的なモーションブラーモデルを変分ベイズによって解くことで、1枚の入力画像からデブラーを実現する手法 [1] 、そして、複数フレーム画像(動画)を入力として、より精度よくデブラーする深層学習モデルを使った手法 [2] です。

[1] Fergus, Rob, et al. "Removing camera shake from a single photograph." ACM SIGGRAPH 2006 Papers. 2006. 787-794.

[2] Zhong, Zhihang, et al. "Efficient spatio-temporal recurrent neural network for video deblurring." European Conference on Computer Vision. Springer, Cham, 2020.

Removing camera shake from a single photograph

モーションブラーの古典的なモデルは、観測画像、潜在画像(ボケのない未観測画像)、ブラーカーネルによって記述されます。ブラーカーネルが未知の場合、観測画像という”情報が失われた”入力から、潜在画像とブラーカーネルの両方を推定するという、一見無茶な問題を解かなくてはなりません。本論文では、潜在画像とブラーカーネルに適切な(そして強い)事前分布をおき、ベイズ的に問題を解決しています。しかし、古典的なモデルの限界として、モデルの仮定にそぐわない設定では、アーティファクトが生じることで潜在画像の復元に失敗してしまう点が課題です。この課題は、以降の研究でモデルを拡張する(例えば、ブラーカーネルをセグメントごと・ピクセルごとに求めるなど)ことで解決が試みられています。

Efficient spatio-temporal recurrent neural network for video deblurring

こちらは設定が変わり、入力が複数フレームになります。デブラーしたい画像の前後の画像を使えるので、推定問題はより易しくなったといえます。この手法では深層学習モデルを用いており、古典的なデブラーで見られるアーティファクトを生じさせないという点で、実用的な手法です。SOTA 精度を達成しながら、アテンションモジュールのアイデアを効果的に用いたことで従来手法よりも軽量化されています。また、提案されたモデルそのものだけでなく、ビームスプリッターという装置を用いて独自にリアルデータセットを取得している点も、面白い内容となっています。