(文献紹介)Depth Completionの最新動向

こんにちは、CTO室リサーチャーの角田です。

私は、今年4月に新卒としてモルフォに入社しました。3ヶ月の OJT が終了し、現在私は測距センサーの情報を用いることで画像処理品質を向上させるための研究開発に取り組んでいます。この分野では “Depth Completion”と呼ばれる手法の研究が行われています。研究の一環として、この“Depth Completion”に関連する論文調査を行いましたので、本エントリにて概要を紹介させて頂きます。

Depth Completion

近年のモバイル端末はカメラの進化が著しいですが、近年ではLiDARやToFといった測距センサーも搭載されており、それらにより画像に3次元的な情報を付与することができるようになりました。ただし測距センサーの弱点として

  • depthを部分的にしか測定できない

  • 解像度が低い

という側面があり、RGB画像と同程度の情報を得るには至っていません。

f:id:morphotech:20201104162542j:plainf:id:morphotech:20201104162628p:plain
RGB画像とそれに対応するToF画像

そこで、測距センサーの出力をRGB画像並みに補完する"depth completion"という手法が近年盛んに研究されていまます。以下ではECCV2020に採択された以下の論文の概略と、実装を動かしてみた所感を紹介します。

JJ. Park, K. Joo, Z. Hu, C.-K. Liu, and I. S. Kweon.: Nonlocal spatial propagation network for depth completion

続きを読む

(文献紹介)深層学習による動被写体ロバストなカメラの動き推定

こんにちは、CTO 室リサーチャーの三宅と申します。モルフォでは、学術論文の輪講を行う「ジャーナルクラブ」という有志による活動があります。今回は、このジャーナルクラブで発表した内容をご紹介いたします。画像処理では、複数の画像を入力としたときに「それらを映したカメラの動き」を推定する問題がさまざまな用途で重要になります。ある幾何的性質を満たした画像間でカメラの動きを記述するモデルはありますが、実際に我々が推定に用いる画像は、そのようなきれいな性質を満たしているとは限りません。難しい設定の最たる例が「動いている被写体を動いているカメラで映す」場合です。今回ご紹介する論文は、今年の CVPR で発表された、動被写体が映っているシーンでもきれいにカメラの動きを推定する深層学習手法について論じたものです。

H. Le, F. Liu, S. Zhang and A. Agarwala, "Deep Homography Estimation for Dynamic Scenes," 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020, pp. 7649-7658.

続きを読む

(文献紹介)Deep Unrolling: Learned ISTA (LISTA)

こんにちは。リサーチャーの長山です。今回は Deep Unrolling(あるいは Deep Unfolding、Algorithm Unrolling)と呼ばれる解釈可能性の高いディープラーニング手法を紹介します。

昨今のディープラーニング手法の発展はめざましく、コンピュータビジョンやパターン認識などの様々な画像処理応用で高いパフォーマンスを達成し、既存の多くのモデルベース解析手法を置き換えるに至っています。 物理プロセスに基づいてモデルや prior を手作業で設計する典型的なモデルベース手法と対照的に、ニューラルネットワークは現実データのサンプルから内部パラメータを決定することでモデルを推定します。そのため、潜在的なプロセスを正確に特徴づけられない場合でも、十分なパラメータ数と十分な訓練サンプルが揃えば、多くのケースでディープラーニング手法を適用することができます。 加えて、ディープラーニングには推論速度が速い利点もあります。モデルベース手法では反復アルゴリズムが広く利用されていますが、ディープラーニングが要求するレイヤー数は、同推論性能の反復アルゴリズムの反復数よりも格段に少なくて済みます。

その高いパフォーマンスの反面、ニューラルネットワークは汎用的なアーキテクチャを利用することが一般的なので、学習したパラメータから潜在的なモデルの構造を解釈することは非常に困難です。つまり、何が学習されていて、それぞれのパラメータは何を意味しているのかを人間が理解しやすい形で説明することは基本的に不可能です。このような解釈可能性の低い手法は、性能の限界や適切に動作する条件などを正確に見積もることが難しいので、高い信頼性が要求されるようなシステムへの応用で障害になりえます。

今回紹介する Deep Unrolling は、反復アルゴリズムをループ展開し学習スキームを導入することで、モデルベース手法の解釈可能性の高さとディープラーニング手法のパフォーマンスの高さを両立させたアーキテクチャです。スライドでは、まず辞書学習に基づく画像復元モデルを題材にスパースコーディングと反復アルゴリズムの Iterative Shrinkage/Thresholding Algorithm(ISTA)を説明します。続いて、基本的な Deep Unrolling アーキテクチャの Learned ISTA(LISTA)とその発展的手法(LISTA-CP、ALISTA)を紹介します。

ICML2020 参加報告 前編

初めまして。CTO室リサーチャーの野元です。

モルフォでは最先端の画像処理・機械学習に関する研究のキャッチアップのため、国内外問わず毎年各種学会に技術系の社員を派遣しています。今回は ICML 2020(International Conference on Machine Learning 2020)にCTO室リサーチャーの川邉とともに参加しました。

今回は学会の概要と私が注目した発表3件についてご紹介します。 後編では「Evaluating Machine Accuracy on ImageNet」等について川邉から報告する予定です。

続きを読む

OJT2020:Vieureka を用いた 3D 人流モニタリング

はじめまして、リサーチャーの三宅と申します。 今年度の新人研修(OJT)において、Panasonic 様が提供する Vieureka *1というエッジ AI カメラデバイスを使用したアプリケーション開発を 2 か月間行いました。 tech.panasonic.com この記事では私たちのチームで開発した「Vieureka を用いた 3D 人流モニタリングシステム」の概要について紹介します。

*1:「Vieureka」および「Vieureka」ロゴはパナソニック株式会社の登録商標です。

続きを読む

OJT2020:Vieureka を用いた混雑状況の配信

はじめまして、リサーチャーの植田と申します。

今年の新人研修の一環として、Panasonic 様の提供する IoT カメラ Vieureka (VRK-C301) を使ったアプリケーションを自分たちで発案・設計・実装するという OJT 課題に挑戦しました。

私たちのチームでは Vieureka が設置された場所の混雑状況を可視化して Web 配信するというシステムを開発しました。 最近では COVID-19 の感染拡大防止のため密集・密接・密閉(いわゆる三密)を避けることが推奨されていますが、 ユーザの視点からは目的地が実際にどれほど混雑しているのか事前に把握しづらいという課題があります。 そこで私たちは、混雑状況をリアルタイムかつ視覚的に伝えるための Web 映像配信システムを、店舗など様々な場所で導入しやすい Vieureka を用いて実現することにしました。 このシステムでは単にカメラの映像をそのまま配信するのではなく、写っている人のプライバシーに配慮した形に変換するという工夫を行っています。 さらに、混雑状況を定量的に伝えるため混雑度のグラフ表示も実装しました。

こちらはその配信ページを録画したデモ動画です。

本稿ではこの Vieureka を用いた混雑状況の配信システムの詳細について紹介しています。

・「Vieureka」および「Vieureka」ロゴはパナソニック株式会社の登録商標です。

OJT2020:Vieurekaを用いた顔検出

はじめまして、リサーチャーの中村と申します。 私は本年4月に新卒としてモルフォに入社しました。

今年の新人研修(OJT)において、私達のチームは2ヶ月にわたってVieurekaカメラというエッジデバイスを用いたアプリケーション開発を行いました。 私達のチームでは、Vieurekaカメラ上で得られた顔認識結果をPCやクラウド上で共有することで遠隔でも玄関の状況や来訪者を知ることが出来るスマートインターホンを開発しました。 アプリケーションの構造を下の図に示します。

f:id:morphotech:20200831145123p:plain
アプリケーションの構造。Vieurekaカメラ上でリアルタイム顔認識を行い、認識結果や動画をクラウド上で共有することが出来ます。

そこで本記事では、顔認証機能付きスマートインターホンの要素技術であるリアルタイム顔検出について紹介します。 特に、ここではアルゴリズムの詳細に踏み込むのではなく、エッジデバイス上での実行速度と検出精度のバランスに着目していきます。

続きを読む