Morpho Tech Blog

OJT 2025：自然言語での画像レタッチング

2025-10-15T10:30:00+09:00

こんにちは。 2025年度入社のリサーチャーの安達です。今回は、弊社で実施している新人グループ研修について報告します。

はじめに

今年度の参加者は安達、周、ユガンダーの3名で、2か月間にわたりチーム開発を実施しました。テーマは自然言語での画像レタッチングです。

写真加工アプリやSNSの普及を背景に、自撮り文化が世界中で広がっています。こうした流れから、写真レタッチ市場も拡大しています。一方で「加工が面倒」「操作が複雑でよく分からない」という声もあり、誰もが手軽に利用できる状況ではないという課題も残されています。

こうした課題を受け、私たちは自然言語で直感的に操作できる自撮り画像向けレタッチツールを開発しました。このツールの最大の特徴は、「誰だか分からないようにして」や「肌のトラブルを何とかして」といった曖昧な命令でも、高精度なレタッチが可能なことです。

今回は、以下の3つの加工機能に絞り込み、WebUIとして実装しました。

プライバシー保護機能：顔や物体へのぼかし処理
顔補正　　　　　　　：ニキビ除去や自然な小顔補正
背景置き換え　　　　：不要物の削除や背景の変更

WebUIの実行例

システム構成

本システムの開発においては、ユーザが入力する多様な自然言語命令を、いかに正確に中間表現であるプログラムへ変換するかという課題が主眼となっていました。特に、変換過程で用いる例示プロンプトの調整が、最終的に出力されるレタッチ画像の精度に非常に大きく影響することが判明しました。

この課題に対応するため、私たちはメインロジックであるレタッチ実行部の前段にRAG(Retrieval-Augmented Generation；検索拡張生成)を導入し、システムを二段階のコンポーネントで構成しました。

まずRAGでは、ユーザからの自然言語命令を解析し、その命令に合致する最適な例示プロンプトを生成します。この例示プロンプトは、レタッチ命令をプログラムに変換するための参照情報として機能します。

次にレタッチ実行部では、RAGから渡された例示プロンプトを基に、LLM(Large Language Models；大規模言語モデル)を用いてレタッチ実行プログラムを生成します。このプログラムを実行することで、入力画像にレタッチ処理が施され、ユーザの意図に沿ったレタッチ画像を出力します。

このように、RAGを導入し処理を二段階に分けることで、例示プロンプトを動的に調整し、ユーザの多様な命令への柔軟な対応を実現しました。

全体のシステム構成図

VisProg

In-context Learningは、LLMのもつ重要な能力の一つです。これは、モデルの重みを更新することなく、与えられたコンテキストに基づいて新たなタスクを理解し、適切な応答を生成する能力のことです。

今回は、この能力を最大限に活用するために、VisProg[1]と呼ばれるフレームワークを導入しました。 VisProgは、自然言語の命令をLLMで解析し、あらかじめ実装されたインタプリタを組み合わせて、動的にレタッチプログラムを生成します。

例えば、画像全体にぼかしをかけるという命令を考えてみましょう。この場合、VisProgは以下のようにレタッチプログラムを生成します。

IMAGE=READ_IMAGE(path='./test.jpg') # 画像を読み込む
RESULT1=BLUR(image=IMAGE, ksize=51) # 画像全体にぼかしをかける
FINAL_RESULT=RESULT(var=RESULT1)    # レタッチ画像を出力

この例では、画像を読み込むREAD_IMAGE、画像にぼかしをかけるBLUR、画像を出力するRESULTという3つの独自に実装したインタプリタを組み合わせることで、一連の処理が自動で構築されます。

今回私たちは、特定の物体へのぼかし、小顔化、ニキビ除去、背景置き換え機能に対応するインタプリタを実装しました。

レタッチ実行部

では、画像レタッチを実行するレタッチ実行部の概要を説明します。

まず、ユーザの命令は、VisProgのプログラム生成部に渡されます。ここで、Gemma 3 というLLMが、RAGから渡された命令とプログラムのペアを例示プロンプトとして参照しながら、入力命令に応じたレタッチ用プログラムを自動生成します。

次に、生成されたプログラムは、VisProgのプログラム実行エンジンに渡されます。ここでは、プログラム内の各ステップを解析し、機能ごとに独自に実装された専用のインタプリタを呼び出します。実際に実装したインタプリタの例としては、

BLUR：ぼかし処理
REMOVE_ACNE：ニキビ除去

といった具合です。

最後に、処理が完了した画像がユーザに返され、レタッチ処理が完了します。

レタッチ実行部のシステム構成図

Gemma 3

LLMは、膨大なテキストデータと深層学習技術、特にTransformerと呼ばれるアーキテクチャを用いて構築された、高度な自然言語処理モデルです。これを活用することで、文章の作成・要約・翻訳、質問に対する応答など幅広いタスクをこなすことができます。

今回のシステムでは、2025年3月にGoogleが発表した最新のLLMであるGemma 3[2]を採用しました。このモデルは、主に以下の特長を備えています。

多様なモデルサイズ(1B, 4B, 12B, 27Bなど)を選択可能
最大128Kトークン(英単語約25万語相当)もの長文を入力可能
140以上の多様な言語に対応

ぼかし機能インタプリタ

本記事では、実装した機能の中からぼかし機能で使用した技術について説明します。ぼかし機能は、大きく分けて2つのインタプリタから構成されます。

1つ目は、MASK_FROM_PROMPTインタプリタです。これは、入力命令に基づいて、ぼかしを適用すべき対象領域を自動的に特定し、その領域のマスク画像を抽出します。内部的には、以下の技術を組み合わせて実装しています。

LangSAM[3]：プロンプトから画像中の特定のオブジェクトに対するマスクを生成するモデル。GroundingDINOとSegment-Anything Modelを組み合わせて構築されている。
Mask Selection：位置の指定(例. 右から2番目の人、一番上のコップ)がされた場合、その部分だけのマスクを抽出する独自の関数。

2つ目は、BLURインタプリタです。これは、OpenCVが提供するGaussianBlur関数を用いて、マスク領域に対してガウシアンブラーを適用します。

これら2つのインタプリタを組み合わせることで、ユーザが自然言語で指定した対象物に対して、ピンポイントでぼかしを適用する機能を実装しました。

ぼかし機能を実現するパイプライン

直面した課題

ここまでの実装により、入力命令と画像からレタッチ画像を出力する一連の処理フローは完成しました。しかし、様々な命令や例示プロンプトで実験した結果、大きく4つの課題が明らかになりました。その中でも特に深刻だったのが、プロンプトに大量の異なる例を与えると、Gemma 3が混乱して意図しない応答を返すという現象です。具体的には、「ニキビを消したい」や「背景を青い空に置き換えて」など、異なる例示プロンプトを大量に与えると、Gemma 3はどの命令を選択すべきかを判断できず、意図と異なるレタッチ結果を返すことが頻発しました。これは一般的に、Context Confusion(コンテキストの混乱)と呼ばれる課題です。本記事では、この課題に焦点を当てて、その解決策を説明します。

RAG

Context Confusionを解決するには、Gemma 3に対して一度に大量の例を与えるのではなく、必要最低限の例だけを与える仕組みが必要です。そこで、今回はRAGを導入することで、入力命令に最も関連性の高い少数の例のみをGemma 3に渡すアプローチを試みました。

RAGとは、LLMの回答能力を外部の知識ベースやデータベースと組み合わせることで拡張する技術です。今回の場合は、事前に用意した大量の例示プロンプトが、データベースの位置づけとなります。具体的な動作の流れは以下の通りです。

ユーザからの入力命令を受け取る
命令文を埋め込みベクトルに変換し、事前に用意した大量の例示プロンプトから類似度検索を実行
最も関連性の高い少数の例(今回は3つ)だけを取得し、Gemma 3に渡す
モデルは、選ばれた例を参考に最終的なレタッチ画像を生成

類似度検索の手法

まず、ユーザからの命令を埋め込みモデル(all-MiniLM-L6-v2[4])でベクトル形式に変換します。このモデルは、テキストの意味的特徴を抽出し、高次元の特徴量空間へ埋め込むよう事前学習されています。そのため、意味的に似ている文は、このベクトル空間上で互いに似た向きのベクトルになります。

次に、このベクトルを用いて、事前に用意した大量の例示プロンプトの中から、最も関連性の高い例をコサイン類似度(cosine similarity)を用いて検索します。コサイン類似度とは、2つのベクトルの向きの一致度を -1.0〜1.0 の範囲で数値化する指標です。大きさではなく方向の一致度を測るため、文の長さやスケールに依存せず、純粋な意味的な近さを測定できます。

この計算結果に基づき、最も類似度が高い上位3件の例のみを抽出し、Gemma 3に渡すようにしました。このように例示プロンプトを厳選したことで、Gemma 3が不要な例に惑わされることなく、ユーザの意図をより正確に解釈できるようになりました。結果として、誤ったレタッチ機能を選択することが少なくなり、よりユーザの意図に沿った編集システムを実現できました。

WebUI

Flaskは、Pythonで利用できる軽量かつシンプルなWebフレームワークです。今回のシステムは、フロントエンド・Webフレームワーク層(Flask)・バックエンドの三層構造で設計されています。

WebUIの構造

フロントエンド

画像アップロードボタンや領域選択、対話ボックスなど、ユーザが直接操作する部分を担当します。今回はHTML・CSS・JavaScriptを組み合わせてフロントエンドを構築しました。

Webフレームワーク層(Flask)

フロントエンドとバックエンドの橋渡しを行う層です。 Flaskのルーティング機能を用いてAPIエンドポイントを定義し、フロントエンドから送られたリクエストを適切な処理関数に振り分けます。また、バックエンドで生成された結果は、JSONレスポンスや画像ファイルとして、フロントエンドに返されます。これにより、UIの操作内容をシームレスにバックエンドへ橋渡しできます。

バックエンド

アプリケーションの中核となるロジックを担当します。具体的には、これまで説明してきた一連の画像処理を実行し、チャット応答やレタッチ画像をフロントエンドに返します。

結果

明確な命令の場合

まずは、命令が明確な場合です。例えば、"Replace the background of the man."と入力した場合、システムは命令の内容を正確に理解し、背景置き換え機能を適切に選択しました。その結果、背景のみが自然に置き換えられ、所望のレタッチ画像が出力されました。

Replace the background of the man.と入力した結果

曖昧な命令の場合

次に、命令が曖昧な場合です。例えば、"Make the people unrecognizable."という命令には、"顔をぼかす"というような具体的な画像処理の内容は含まれていません。しかし、システムはユーザの意図を汲み取り、顔へのぼかし機能が最も適切であると判断しました。その結果、人物の顔が自然にぼかされた画像が出力されました。

Make the people unrecognizable.と入力した結果

非常に曖昧な命令の場合

最後に、命令が非常に曖昧な場合です。例えば、"Can you make it more anonymous?"という命令は、これまでの命令と比べても非常に抽象的な命令です。特に「anonymous」という表現は解釈の幅が広く、具体的にどのような処理を期待しているのかが明確ではありません。ここでシステムは、1つの機能ではなく、ぼかし機能と背景置き換えの複数の機能を組み合わせて、匿名化を実現しました。その結果、人物の顔をぼかして、白黒背景に置き換えた画像が出力されました。

Can you make it more anonymous?と入力した結果

まとめ

今回の研修ではVisProgをベースに、自然言語による自撮り画像向けのレタッチツールを開発しました。特に、曖昧な命令にも対応できるようにしたことで、より実用性の高いシステムを実現しました。また、RAGの実装により、将来的に機能が増えても安定して動作できるよう設計を工夫しました。

今後の課題としては、主に次の3つが挙げられます。

実装機能のさらなる拡充
より軽量なモデルを活用し高速化の実現
自社の画像処理製品との統合

最後までお読みいただき、ありがとうございました。

参考文献

[1] Tanmay Gupta, Aniruddha Kembhavi(2022), Visual Programming: Compositional visual reasoning without training, CVPR 2023, https://arxiv.org/abs/2211.11559

[2] Google, Gemma 3 モデルの概要, https://ai.google.dev/gemma/docs/core?hl=ja

[3] luca-medeiros, Language Segment-Anything, https://github.com/luca-medeiros/lang-segment-anything

[4] Hugging Face, sentence-transformers/all-MiniLM-L6-v2, https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2

JDLA主催「CVPR2025技術報告会」発表資料

2025-09-05T10:00:00+09:00

先日、日本ディープラーニング協会主催（JDLA）の「CVPR2025技術報告会」にてモルフォの技術者が登壇いたしました。本記事では、当日の資料を共有するとともに、その発表内容をダイジェストでお届けします。

発表内容のダイジェスト
発表資料の共有
引用

発表内容のダイジェスト

概要

CVPR（The IEEE / CVF Conference on Computer Vision and Pattern Recognition）は、コンピュータビジョン（画像認識技術）の分野で世界最高峰とされる国際学会です。昨年に引き続きまして、CVPRの重要性や、今年のトレンドの分析、モルフォの技術者が注目した分野や論文について詳しく解説しました。

トレンド分析

CVPR2025でも、昨年と同じく生成AI、マルチモーダル、Gaussian Splatting、基盤モデルの分野のトレンドは継続しており、多くの論文が出されていました。それに加え今年は特に、2D静止画の解析に留まらず、「動画」や「3D」といった、より高次元で複雑なデータを扱う研究がトレンドの中心になりつつあることが鮮明になりました。

CVPR2025の頻出ワードのマッピング

トレンド深堀り①3D再構成

複数の2D画像から3D空間を復元する「3D再構成」は、今年のCVPRで最もホットな分野の一つでした。Best Paperに輝いたVGGTをはじめ、3D Student Splatting and Scooping（SSS）、MegaSaM、DIFIX3D+といった注目論文が発表され、技術の大きな進展を推し進めています。発表では、これらの論文が3D再構成技術の発展の中でそれぞれどのような役割を果たし、どのように関連しているのかを解説しました。

3D再構成におけるCVPR2025の主要な3D関連論文の位置づけ

トレンド深堀り②マルチモーダル

画像に加えて言語や音声など複数の情報を統合して扱うマルチモーダル技術も、昨年に引き続き主要トレンドです。今年は、AIを物理世界と相互作用する中で学習させる「Embodied AI」への発展に加え、技術の「オープンソース化」と「公平性」も大きなテーマとなりました。

その象徴が、Best Paper Honorable Mentionsを受賞した"Molmo and PixMo"です。これまで非公開が常識だった最先端クラスの視覚言語モデル（VLM）が、学習データやコードを含め完全にオープンソース化されました。研究の透明性と再現性を高め、技術の民主化を大きく前進させる成果として、ひときわ注目を集めています。

トレンド深堀り③動画の認識・生成

時間的な文脈を持つ動画データの認識・生成も、今年の大きなトレンドとなりました。特に、これまでの課題であった長時間の動画の認識・生成において大きな進展が見られました。

長時間の動画を扱う上では、認識時の「効率的な情報処理」と、生成時の「一貫性の維持」が重要です。認識分野では、SEALが長い動画の中から意味的に重要な部分に効率良く注目する手法を提案しています。生成分野では、StreamingT2Vが独自のアーキテクチャにより約2分という長尺かつ高品質な動画生成を初めて実現し、大きな注目を集めました。

テクニカルディープダイブ①新世代のアーキテクチャMambaの動向

CNNやTransformerと競合する新たなアーキテクチャとして、主に自然言語処理の分野で注目されているMamba。その波が、いよいよ画像処理の学会であるCVPRにも押し寄せています。

Mambaは系列データの扱いに長けていますが、これを2次元データである画像にどう適用するかが大きな課題です。CVPRでは、画像の読み取り順序（スキャン方向）を工夫することでこの課題に対処する研究が目立ちました。また、Mambaの特長をそのまま発揮すべく、大規模（多次元）データ対応やマルチモーダル入力の統合、順序構造を持つデータへの応用といった研究も多く見られました。

"GroupMamba"[1]におけるスキャン方向の模式図

テクニカルディープダイブ②NTIRE 2025

CVPRでは、メインの論文発表だけでなく、特定のテーマを深掘りする「ワークショップ」も重要なコンテンツです。

今回はその中から、画像の復元や高画質化技術を競うコンペティション「NTIRE (New Trends in Image Restoration and Enhancement workshop and associated challenges)」に注目しました。発表では、今年のチャレンジでトップ成績を収めた"Team AllForFace"の手法を紹介し、最新の画質改善技術の動向を解説しました。

NTIRE Challengeにおける"Team AllForFace"による処理の概略図[2]

発表資料の共有

当日の発表資料の全体を共有させていただきます。

JDLA主催CVPR2025 技術報告会ーコンピュータビジョン技術の最前線ー by @Morpho

発表動画については以下のリンクから是非ご視聴ください。

YouTube

引用

[1]

Abdelrahman Shaker, Syed Talal Wasim, Salman Khan, Juergen Gall, Fahad Shahbaz Khan. "GroupMamba: Efficient Group-Based Visual State Space Model". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025. Available: https://openaccess.thecvf.com/content/CVPR2025/papers/Shaker_GroupMamba_Efficient_Group-Based_Visual_State_Space_Model_CVPR_2025_paper.pdf

[2]

Zheng Chen, Jingkai Wang, Kai Liu, Jue Gong, Lei Sun, Zongwei Wu, Radu Timofte, Yulun Zhang, Jianxing Zhang, Jinlong Wu, Jun Wang, Zheng Xie, Hakjae Jeon, Suejin Han, Hyung-Ju Chun, Hyunhee Park, Zhicun Yin, Junjie Chen, Ming Liu, Xiaoming Li, Chao Zhou, Wangmeng Zuo, Weixia Zhang, Dingquan Li, Kede Ma, Yun Zhang, Zhuofan Zheng, Yuyue Liu, Shizhen Tang, Zihao Zhang, Yi Ning, Hao Jiang, Wenjie An, Kangmeng Yu, Chenyang Wang, Kui Jiang, Xianming Liu, Junjun Jiang, Yingfu Zhang, Gang He, Siqi Wang, Kepeng Xu, Zhenyang Liu, Changxin Zhou, Shanlan Shen, Yubo Duan, Yiang Chen, Jin Guo, Mengru Yang, Jen-Wei Lee, Chia-Ming Lee, Chih-Chung Hsu, Hu Peng, Chunming He. "NTIRE 2025 Challenge on Real-World Face Restoration: Methods and Results". Available: https://arxiv.org/pdf/2504.14600

OJT 202410/202411：プライバシー保護カメラ

2025-07-22T11:00:00+09:00

こんにちは。2024年10月入社のカエンと、11月入社のスウです。今年度の新人グループ研修について報告します。

はじめに

弊社では2か月間のグループ研修を実施しています。今年度の参加者は陳　華炎（カエン）、鄒　宇傑（スウ）と趙　汝豪（ジョゴウ）の3名で、テーマは「Privacy-Preserving Camera（プライバシー保護カメラ）」です。

動機

スマートフォンの普及によって、写真を撮るチャンスが大幅に増えてきました。しかし、イベントや取材、日常のスナップショットなどで第三者の顔が映り、意図せず拡散されることは少なくないと思います。このような状況では、映ってしまった画像や動画は加工・修正する必要がありますが、手動では手間がかかります。そのため、手軽に写真・動画撮影の際のプライバシーを保護できるようなアプリを開発したいと考えました。

この研修では、リアルタイムで顔をぼかせる処理の実装を目標とし、特に利用者が多いスマートフォンに向けて開発しました。

目標

私たちがこの研修で実現したいことを一言でいうと

カメラに映る特定の人以外の顔、リアルタイムにぼかしたいよ！

です。

リアルタイム顔ぼかし機能のあるスマートフォンアプリを事前に調査したところ、iOS対応のものはありましたが、Android対応のものはありませんでした。そのため、開発アプリのターゲットを Android に絞り込みました。

機能実現のための作業工程を分解していくと、以下の4つの段階が必要だと判明しました。

顔検出（detection）と追跡（tracking）
特定の人の顔の照合（verification）とぼかし
¹リアルタイム処理化
Androidアプリ対応

使用機材

Webcam付きのパソコン: 1台
- CPU: Intel i7-1355U
- RAM: 32GB
- 撮影フレームレート: 30fps (1080p)
カメラ付きのスマホ:1台
- 機種: Google Pixel 9 Pro
  - SoC: Google Tensor G4 (Octa-core）
  - 1x 3.1 GHz Cortex-X4
  - 3x 2.6 GHz Cortex-A720
  - 4x 1.92 GHz Cortex-A520
- RAM: 16GB
- 撮影フレームレート: 30fps (1080p)

メソッド

目標の達成に向けて、以下の開発を行いました。

顔検出

顔検出は物体検知の一例であり、画像内に顔が存在するかどうかを判別し、顔がどこに位置しているかを特定することを目的とするタスクです。

要件に基づき、弊社が保有する既存の顔検出技術を調査したところ、face detectorと呼ばれるプロジェクトがあることがわかりました。しかし、face detector は古くてマイグレーションが難しく、研修期間内にカスタマイズして使うことが難しいことが判明したため、採用を見送りました。代わりに、代表的な汎用物体検出手法であるYOLO（You Only Look Once）v11[1]を採用しました。パソコンで処理速度を計測した結果、検出は約51.9ms/frame（19.26fps）であることがわかりました。

顔照合

顔照合は、2枚の顔画像の特徴（例えば、顔の輪郭、目、口の位置などの特徴）を比較し、同一人物かどうかを判定する技術のことです。実際のユースケースでは、撮影角度、光、カメラなどの影響を考慮する必要があるため、顔検出と比べてさらに複雑です。

私たちは初めに、今回の目的に適した顔照合の既存手法の調査を行いました。調査の結果、次のような手法を見つけました:

Seqface[3]:識別ラベルと連続IDを組み合わせた損失関数により、識別性能と特徴の分離性を同時に向上させる顔照合手法。顔照合の手法の中では精度が随一だが、モデルサイズが大きすぎる
Deepface[4] :Facebookが開発した初期の顔照合モデルで、顔の位置合わせに3Dモデルを活用し、高精度な顔照合を実現
Sface[5] :高品質・低品質な顔画像の両方に頑健な認識性能を持つ軽量な顔照合手法。加重されたコサイン類似度ベースの損失関数を導入し、計算効率と精度を両立

これらの手法の精度と速度を評価した結果、今回の要件に最も適したのは Sface ということが判明したので、採用しました。

各手法の評価結果は以下の通りです（パソコン）:

Seqface （フレームワークが古く、評価未実施）
Deepface：精度 = 97.40%　所要時間 = 1103ms/回
Sface：精度 = 92.42%　所要時間 = 112.3ms/回

高速化

これらの手法を組み合わせたときの処理速度を見積もりました。実際の検出の複雑さを考慮して、処理時間については次の標準ケースを検討します。

動画は1秒（30fps）です
顔データベースにはひとつの顔画像があります

そして、この1秒の動画は、

撮り始める時顔が映らない
1番目の顔はフレーム8から現れる
2番目の顔はフレーム16から現れる
3番目の顔はフレーム24から現れる

高速化前、パソコンを使用する際には、上記の標準ケースにおいては以下の計算時間（バックグランド処理）が必要です。

処理時間=(フレーム1からフレーム7まで)51.9*7
　　　　+(フレーム8からフレーム15まで)51.9*8+112.3*8
　　　　+(フレーム16からフレーム23まで)51.9*8+112.3*8*2
　　　　+(フレーム24からフレーム30まで)51.9*7+112.3*7*3
= 6610.5 (ms)

したがって、理論フレームレートは 30/6.6105 = 4.53fps であることが判明しました。また、実際の動作環境（パソコン）で計測した結果は4.36fpsでした。30fpsの目標を達成するために、以下の高速化手法を使用しました。

検出頻度の削減

顔検出処理の負荷を軽減するために、3フレームに1回の検出（1 detection / 3 frames）に削減する手法を採用しました。この工夫により、検出の精度を維持しつつも、計算リソースの節約と処理速度の向上を実現できます。

一方で上記変更に伴い、顔が動いている時、検出されなかったフレームの顔はボックスからぶれてしまう可能性があるので、検出精度の低下が懸念されました。そのため、YOLOの出力ボックスサイズを、デフォルト値よりも余裕を持たせた少し大きなものに修正しました。

より大きなバウンディングボックスを使用することで、顔が多少動いたとしても、連続するフレーム間では両方のボックス内に収まる可能性が高くなり、顔検出の頻度を抑えることが可能になります。

照合頻度の削減と顔追跡（Face Tracking）

顔の検出漏れを減らすとともに、照合頻度を減らすために、物体追跡アルゴリズムの一つであるByteTrack[6]を導入しました。追跡とは、既存の検出物体ボックスに基づいて物体の移動方向を予測することで、検出率を向上させる手法です。遮蔽などで見落とされがちな対象は、検出器によってスコアが低く出がちです。従来の手法では、これらは「無視」されてしまいます。

ByteTrackは、スコアが下がった対象も、「前後のフレームと一貫性のある動き」をしていれば、低スコアでも信頼できるとして活用し、追跡を維持、従来の追跡アルゴリズムで見落とされがちな対象も確実に追跡できるよう工夫されています。これにより、照合回数を減らしつつ、検出漏れを減らせることで精度と速度両方の向上が期待されます。

結果

頻度削減の結果を上記の標準ケースに当てはめて、比較検討します。

処理時間=(フレーム1からフレーム7まで)51.9*3
　　　　+(フレーム8からフレーム15まで)51.9*2+112.3
　　　　+(フレーム16からフレーム23まで)51.9*3+112.3
　　　　+(フレーム24からフレーム30まで)51.9*2+112.3
= 855.9 (ms)

したがって、理論フレームレートは 30/855.9 = 35.05fps に改善されました。

パソコンで計測した結果は31.02fpsとなりました。目標を達成できているので次の段階のアプリ開発に十分使えると考えました。

スマートフォン向けの開発

Python の既存ライブラリと公開モデルを活用し、4週間で試作を実装しました。また、Webカメラを使用して多数のテストを行いました。最終的には3週間かけて一部のアルゴリズムをC/C++で再構築し、Java を外部インターフェースとして、内部に C/C++ コードを組み込む形で Android デバイス上に実装しました。

まとめ

今回の研修ではプライバシー保護カメラ、すなわち、登録ユーザー以外の顔をリアルタイムでぼかすアプリの開発に取り組みました。この研修を通じて、顔検出・照合・追跡のディープラーニング手法に触れることができました。また、グループワーク・進捗管理、アルゴリズム開発・実装とクロスコンパイル、 Android開発を経験することができました。この経験を今後の業務に活かしたいと思います。

今回の研修で作成したアプリには、以下の課題が残っています。

カメラが動いている場合、検出に必要なフレームが多い。
動いている人の顔や、遠くいる人の顔、一部の顔の向きが検出されないこと。
アプリはまだスマートフォンのアルバムにアクセスできないこと。

最後までお読みいただき、ありがとうございました。

参考文献

[1] Ultralytics YOLOv11, https://docs.ultralytics.com/ja/models/yolo11/

[2] WIDER FACE: A Face Detection Benchmark Shuo Yang, Ping Luo, Chen Change Loy, Xiaoou Tang https://shuoyang1213.me/WIDERFACE/

[3] SeqFace: Make Full Use of Sequence Information for Face Recognition Zhenyao Zhu, Ping Luo, Xiaogang Wang, Xiaoou Tang https://arxiv.org/abs/1708.01826

[4] DeepFace: Lightweight Face Recognition Framework GitHub: https://github.com/serengil/deepface

[5] SFace: Sigmoid-Constrained Hypersphere Loss for Robust Face Recognition Jingjing Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou https://arxiv.org/abs/1909.09099

[6] ByteTrack: Multi-Object Tracking by Associating Every Detection Box Yifu Zhang, Peize Sun, Yi Jiang, Rufeng Zhang, Lijie Fan, Zehuan Yuan, Ping Luo https://arxiv.org/abs/2110.06864

主に生放送や動画処理に使用されることを想定し、本研修では30fpsをリアルタイムと設定しました。↩

【開催レポート】社員のアイデアがモルフォの未来を創る - Will型アイデアハッカソン

2025-06-04T10:00:00+09:00

こんにちは。モルフォCTO室シニアリサーチャーの芳賀です。

今回は、モルフォ独自の制度である「Will型開発」を活用し開催した「Will型アイデアハッカソン」について、その活動内容や成果をご報告したいと思います。

Will型開発とは？

株式会社モルフォでは、社員一人ひとりの自律性を尊重し、新しいアイデアや技術の探求を促進するための制度として、「Will型開発」を推進しています。これは、技術者をはじめとする社員が自身の「やりたい（Will）」を起点として、自律的に研究開発や業務改善に取り組むことを後押しする仕組みです。

従来の、マネジメント層から技術者へ方向性を提示する「Push型」の研究開発に加え、この 「Will」に基づく「Pull型」の研究開発を共存させる ことを目指しており、近年では技術者に限らず全社員の「Will」を尊重する活動へと発展させています。

例えるならば、3M社やGoogle社で知られる「20%ルール」のように、勤務時間の一部を使って自身の興味や問題意識に基づいたテーマに取り組むことを推奨しています。活動にあたっては、ひと月の所定労働時間内であれば20時間以内、所定労働時間外であれば時間制限なしというルールに基づき実施されます。

日々の業務と並行して時間を確保する必要はありますが、それでもなお、社員からは「新しい技術に触れてみたい」「ひらめいたアイデアを形にしたい」「過去に手掛けた業務をさらに改善したい」といった前向きな声が多く聞かれ、Will型開発がその意欲を後押ししています。

Will型開発に月に何時間充てられているかの社内アンケート（エンジニア向け）

私はWill型の運営をしており、主に以下の活動を定期的に開催しています。

毎月のWill型発表会の開催
- 社内で発表者を募集し簡易的な報告会を実施
- 内容は「成果報告」「営業からのニーズの紹介」「相談」などなど
イベントの開催
- 社内・社外を巻き込んだハッカソン
- インターンや新人OJT活動との連携
運営業務、アンケートの実施、活動の推奨

Will型開発では、モルフォの事業に関連する内容であれば、現在の業務と直接関係ないテーマにも取り組むことが可能です。活動は個人でもチームでも行うことができ、一例として今まで以下のようなテーマがありました。

居室内の温湿度モニタリングダッシュボードの開発
SoftNeuroルーチンの高速化
画像復元応用に向けた拡散橋モデルの研究
SOFTGYROの新たなアルゴリズム改善
似顔絵生成
技術スライドの作成を促進するTypstテンプレート提供
RVCによるボイチェン
ローカルLLMを使ったSlack bot
etc...

なぜアイデアハッカソンを開催したか？

Will型開発は、社員の自律的な探求を促す制度として好評ですが、これまでの活動から、素晴らしい技術的なアイデアが生まれても、それがすぐに実際の製品や事業に結びつく例は必ずしも多くない、という課題も見えてきました。

この要因の一つとして、エンジニア中心の活動だったため、お客様のニーズを深く理解している営業メンバーとの連携が限定的だったのではないか？と考えました。

そこで、Will型開発をより実りあるものにするため、運営メンバーに営業も含めて議論を重ねました。そして、「エンジニアの持つユニークなアイデア」と「市場やお客様のニーズ」を効果的に結びつけ、アイデアを「プロダクトアウト」へと繋げていくこと を特に重要視する、という方針が固まりました。

この方針のもと、エンジニアと営業が密接に関わるための一つの具体的な試みとして開催されたのが、今回の「Will型アイデアハッカソン」です。

事前の交流会では、社内に多くの潜在的なアイデアがある一方で、「個人ではなかなか形にするのが難しい」「お客様の優先度が高くないテーマは後回しになりがち」といった現場のリアルな課題意識が共有されました。

営業とエンジニアの交流会にて交わされた意見

今回のハッカソンは、こうした眠っているアイデアに光を当て、技術シーズと顧客ニーズを結びつけ、実現可能なビジネス提案へと具現化することを目的としています。

イベント全体の流れ

今回の「Will型アイデアハッカソン」は、社員一人ひとりのアイデアをモルフォの新たなプロダクトや事業へと繋げることを目指し、約3ヶ月間にわたる以下の段階を経て進められました。

アイデアハッカソンの全体スケジュール

アイデア募集
- テーマを「モルフォの新たなプロダクト」とし、全社員から広くアイデアを募集
- スライド1枚のシンプルなテンプレートにアイデアを記入して提出
アイデア発表LT会
- アイデアを提出した社員がライトニングトーク形式で発表
- 参加者の投票により、ハッカソンフェーズに進むアイデアとチームの決定
アイデアハッカソンフェーズ
- 営業メンバーのサポートの元、LT会にて採択されたアイデアをブラッシュアップ
  - 実現可能なビジネス提案への発展
  - 実際の案件や製品につながる成功モデルの創出
- プリセールス向けの提案資料作成
- 説得力をあげるための道具の作成（デモ動画や市場分析など）も推奨
アイデアハッカソン最終発表会
- ハッカソンフェーズでブラッシュアップした提案資料を用いて成果を発表
- 取締役や技術部門長などを招き「独自性」「収益性」「実現可能性」の観点から審査

このように今回のハッカソンは、アイデアの発掘からチームでの具体化、ビジネス提案、そして最終的な成果発表までの一連の流れを実践的に経験できるイベントとなりました。

また、開催にあたっては、参加しやすい形式を意識しました。以前モルフォで開催した数ヶ月にわたるEVSハッカソン*1と比較して、今回は約1ヶ月間という集中的な期間で進行することで、社員の負担を抑え、よりカジュアルに参加できるようなスケジュールにしています。これが、多くのアイデアが集まり、ハッカソンも活発に進んだ要因の一つと考えています。

各チームの成果発表

今回の「Will型アイデアハッカソン」では、アイデア募集フェーズで集まった多様なアイデアの中から、LT発表会での検討を経て、いくつかのアイデアがハッカソンフェーズへと進みました。LT会では合計12件ものアイデアが集まりましたが、ここでは、最終発表会で提案されたチームの発表内容の一部をご紹介します。

チーム①：「スキャン画像をきれいにする」

取り組んだ課題: 書類や古いアニメのセル画などをスキャンした際に生じる様々な画像の劣化や課題に取り組みました。具体的には、原稿の外側の写り込みやノド付近の丸まりによる歪み、微妙な傾き、グレーがかった背景や黒背景の白飛び、裏写り、蛍光ペンによる書き込み、文字のにじみやぼやけなどです。また、昔のアニメのBlu-ray版などに見られるノイズも課題として挙げていました。一般的なコピー機の設定では十分な画質が得られないという課題意識もありました。

提案したソリューション: これらの課題を解決するため、モルフォが持つ画像処理技術を活用した自動補正機能を提案しました。書類だけでなく、アニメ画のような特殊な画像への応用も検討しました。文字をくっきりさせたり、裏写りを軽減・除去したり、背景を透明化したりといった処理が可能です。

スキャン画像に対して処理した結果

発表された成果物の概要: プリセールス向け提案資料を作成し、早速アニメ制作会社へ提案もしています。様々な画像処理による補正デモ画像や、さらにアニメ制作会社向けには線抽出、透明化などの簡易実験結果を紹介しました。発表会では著作権に関する考慮事項についても言及がありました。

チーム②：「言語命令による自由自在なレタッチ」

取り組んだ課題: 写真のレタッチには専門知識が必要であり、ユーザーの意図通りのレタッチを実現するのが難しいという課題に注目しました。既存のプログラミングツール（Pillow/OpenCVなど）はプログラミング知識が必要で、単体ではユーザーが望む自由自在なレタッチが実現しにくい状況でした。

提案したソリューション: 言語での指示によって自由自在なレタッチを実現する「Morpho Language Retouch」というソリューションを提案しました。モルフォが保有する画像解析技術や処理モジュールと、VLM (Vision-Language Model) などの最新AI技術を組み合わせることで、初心者でも言語ベースの命令でパラメータ調整可能なレタッチが可能になることを目指しました。ユーザーが微調整できるようなインタラクティブなUIも提案しています。

Morpho Language Retouchの提案および処理フロー

発表された成果物の概要: プリセールス向け提案資料を作成し、ビジネスモデルやターゲット顧客（スマートフォンメーカー、画像編集ソフトユーザーなど）、具体的な売上目標（Androidハイエンドスマホへの採用、Adobeプラグインとしての採用など）を示しました。既存技術との比較優位性についても分析・提示しました。

チーム③：「画面録画による作業ログ探索」

取り組んだ課題: エンジニアなどのPC作業において、作業内容の記録や後からの確認・探索に課題があることに着目しました。具体的には、「過去の作業忘れのために生じた余分な作業時間」を削減し、エンジニアの作業原価を低減することを目指しました。これは、年間数百万円規模のコスト削減に繋がる可能性を秘めていると試算しています。

提案したソリューション: PC画面の操作を録画し、そのログを探索可能にするソリューション「Morpho Work Logger」を提案しました。重要な技術要素として、画面録画画像に対してOCR（画像内文字列認識）技術を活用しながら探索に活用する点が挙げられます。保存容量を抑えるために、OCR後は画像の解像度を落として保存するといった工夫も考慮されています。

Morpho Work Loggerのソリューション概要

発表された成果物の概要: プリセールス向け提案資料を作成し発表しました。デモ用ツールを試作し、実際に「Morpho Work Logger」を使ってログ探索するデモンストレーションを行いました。

振り返り

アイデアハッカソンを終えて、運営メンバーでKPT（Keep, Problem, Try）法による振り返りを実施しました。

Keep
- 全社を巻き込み多数のアイデア創出
- 交流促進
- 新分野検討の機会となった
- ちょうどよい規模感・短期間での成果発表
- プリセールス向け資料が成果物のため営業とエンジニア双方が動けた
Problem
- アイデアの継続的なサポートの必要性
- 「出口戦略」の設計
- 運営の効率化
- 若手の参加が少ない印象だった
Try
- アイデア出しの段階をより長くとってみる
- 若い年次が活躍できる形式
  - 技術メインのコンペなど
- 顧客ニーズと紐づけた形式
- 逆にイノベーション重視の技術ドリブンな形式

運営メンバーだけでなく参加した社員からもかなり好評で大きな手応えを感じています。

まとめ

今回の「Will型アイデアハッカソン」は、Will型運営の新しい試みとして全社を巻き込み実施されました。多数のアイデアが創出され、普段はあまり関わる機会が少ない社員同士の交流が生まれたことが運営側にとっても良い経験となりました。短期間での発表やプリセールス資料指定も効果的でした。

今後は、Will型運営として会社を巻き込むイベントを定期的に開催していきたいと思います。部門を越えた交流から生まれるアイデアを「顧客への提案」や事業に繋げる仕組みを強化していく方針です。今回の経験を活かし、社員のWillから生まれる新しい価値を形にする活動を続けていきます。

*1:※EVS（Event-based Vision Sensor）の実用化を目的とした2024年にモルフォで開催した社内ハッカソン。

プレスリリースはこちら。 www.morphoinc.com 個別のチームの技術説明はこちら。 techblog.morphoinc.com

A Brief Survey of Schrödinger Bridge (Part II)

2025-05-15T11:00:00+09:00

こんにちは、CTO室リサーチャーの長山と申します。

モルフォでは毎週金曜日に持ち回りで論文紹介等を行うJournal Clubという取り組みを行っています。今回は、前回執筆した Schrödinger Bridge Part I techblog.morphoinc.com の続編として、 Part II をお届けします。詳細についてはスライド*1をご覧ください。

Part Iでは、Schrödinger Bridge (SB) 問題の基本的な定式化と理論的背景について解説しました。今回のPart IIでは、SB問題を解くための3つの主要アプローチに焦点を当て、それぞれの特徴や最新の発展について詳しく見ていきます。

1. Iterative Proportional Fitting (IPF)

Part Iで述べたように、SB問題の解は2つの確率分布を繋ぐ前進過程と後退過程で表現できます。

Iterative Proportional Fitting (IPF)は、これらの過程それぞれに対応する損失関数を構成し、交互に最適化することでSB解を求めるアプローチです。

このアプローチの代表的な実現には、以下のようなものがあります：

Diffusion Schrödinger Bridge (DSB) - 拡散過程の局所正規性を利用して効率的に学習
Schrödinger Bridge Forward-Backward SDEs (SB-FBSDE) - 最適制御理論を応用し、離散化誤差を軽減

IPFベースの手法は理論的な裏付けが強固で、収束性が数学的に保証されている点が大きな強みです。

2. Flow Matching with Minibatch Optimal Transport

DDPM などの典型的な拡散モデルは、理論上は確率微分方程式 (SDE) で記述されますが、サンプリング段階では同じ周辺密度を持つ常微分方程式 (確率フローODE) を利用することが一般的です。

Flow Matching (FM) は、この確率フローODEのベクトル場を直接学習する手法です。これにミニバッチ最適輸送 (Minibatch OT) を組み合わせることで、SB問題に対する計算効率の高い解法が実現できます。

このアプローチの注目すべき実現としては、以下のようなものがあります：

Schrödinger Bridge Conditional Flow Matching (SB-CFM) - 条件付きFMとMinibatch OTの組み合わせ
[SF]²M (Simulation-Free Score and Flow Matching) - 確率的サンプリングも可能にした拡張手法

特に[SF]²Mは、決定論的な成分と確率的な成分の両方をモデル化することで、多様性のあるサンプル生成を実現しています。

3. Iterative Markovian Fitting (IMF)

SB問題の解は、Markov性 (未来の状態が現在のみに依存する性質) とReciprocal性 (端点条件に依存する性質) を同時に満たす確率過程として特徴付けられます。

Iterative Markovian Fitting (IMF) は、これら2つの性質を持つ空間への交互射影によって解を求める比較的新しいアプローチです。

このアプローチの代表的な実現には、以下のようなものがあります：

Diffusion Schrödinger Bridge Matching (DSBM) - IMF の交互射影を、更に前進・後退過程に対して交互に適用することで誤差累積を抑制
α-DSBM - DSBM に含まれる部分最適化問題を逐次更新に置き換えることで、計算効率の大幅な向上を実現

特にα-DSBMは、DSBM同等の生成品質を維持しながら訓練速度を劇的に向上させた点で注目に値します。

各手法の比較と展望

これら3つのアプローチは、それぞれ異なる特性を持っています：

アプローチ	強み	課題
IPFベース	理論的背景が強固収束性が保証されている	高次元データでの精度に課題
FMベース	計算効率が高い実装が比較的容易	完全なSB解には追加の工夫が必要
IMFベース	高次元データでの精度が高い	実装が複雑

機械学習研究の急速な発展により、これらの手法は継続的に改良されています。特に注目すべきは、α-DSBMのような最新手法では、計算効率と生成品質のバランスが大幅に改善されている点です。

今後は、これらの手法の大規模データへの適用や、より複雑なデータ構造 (3D、時系列データなど) への応用が進むことが期待されます。また、生成AIの分野だけでなく、科学計算や物理シミュレーションなど幅広い領域での活用も検討されています。

www.docswell.com

*1:余談ではありますが、本スライドは組版ソフトの Typst と、プレゼンテーション用パッケージの Touying を用いて作成されました。リアルタイムプレビュー可能な LaTeX のような趣なので、エンジニアの方々にはおすすめです。

DINO v2：画像処理の基盤モデル

2025-03-05T10:30:00+09:00

こんにちは。CTO室リサーチャーの鈴木です。近年、深層学習の分野では、さまざまなタスクにおいて「基盤モデル」と呼ばれる汎用的で高性能なモデルが注目を集めており、これらのモデルを活用した多岐にわたる応用が急速に進展しています。本記事では、その中でも画像分野における基盤モデルの一つである"DINO v2"[1]の概要をご紹介します。

本記事の概要

基盤モデルDINO v2は、

画像の本質特徴を抽出する「自己教師あり表現学習」の決定版！
- Contrastive LearningやMasked Auto-Encoderの仲間だよ
画像分野における汎用性の高さが魅力！
- 深度推定、インスタンス検索、物体の姿勢推定など、幅広いタスクに対応可能な特性
DINO v1とは構造からして大きく違うよ！
- 筆頭著者が同じくMetaという繋がりはあるよ

はじめに～基盤モデル～

近年、深層学習の研究と応用が急速に進展する中で、「基盤モデル」と呼ばれる汎用的な機械学習モデルが多くの分野で注目を集めています。「基盤モデルとは何か？」という説明は様々なところでなされていますが、ここでは、「大規模データでの学習により汎用性を獲得し、多様なドメインのデータに対して安定した性能が期待でき、さまざまな下流タスクへの転用も可能となったモデル」を指すこととします。このような特性により、ユーザーや開発者が基盤モデルをそのまま使うことで様々なタスクをこなすことが可能となっています。

ここ１～２年の深層学習の研究分野では、まさに基盤モデルが一つのキーワードとなっています。一つの例として、自動運転のためのデータセット自動生成に関する論文"SimGen: Simulator-conditioned Driving Scene Generation"[2]からネットワークの説明図をもってきました。この図に書かれている「氷の結晶」と「火」のマークは、「氷のマークがついた部分（Text Encoder、ImgDiff）は学習せずそのまま使う」「火のマークがついた部分（Adapter）のみ新しく学習する」ことを示すマークです。

図１：SimGen[2]によるデータ生成の概略図。

この論文に限らず、昨今は多くの研究で基盤モデルを学習させず「凍結（フリーズ）」させて用いる手法が採用されており、それが図のように「氷」で表現されることが半ば共通認識のようになってきています。

※　弊社が行ったCVPR2024報告会でも、「基盤モデル（Foundation Model）」がCVPR2024のトレンドであったことを解説しています（当日の発表資料）

個別の基盤モデルについて解説すると、まず、Large Language Model（LLM）においては、OpenAIのGPTシリーズやGoogleのBERT、MetaのRoBERTaなど、各社がさまざまな基盤モデルを開発し、医療業界での診断補助や金融業界でのデータ分析、教育業界での学習支援システムなど、多岐にわたる分野で実用化が進んでいます。

また、言語と画像という異なる対象を関連付けるCLIP[3]や、画像生成で一躍有名になったStable Diffusion[4]も、それぞれの用途に応じた基盤モデルとして分類できるでしょう。

さらに画像分野で言うと、セグメンテーション（画像内の物体や領域を分割するタスク）を目的に作成されたSegment Anything Model（SAM）[5]は、ユーザーが与えた入力（例えば、物体の領域やラベル）を基に画像内で自動的に対象を分割できます。こちらも基盤モデルとしての地位を築いており、「様々なタスクの前にセグメンテーションの情報を取り入れておこう」というような『前処理』として、多くの研究でそのまま利用されています。

LLM分野の基盤モデルやStable Diffusion、CLIPやSAMに比べると、DINO v2は特定のタスクに限定されることなく、「画像表現」という広範な対象を目的としています。そのため、画像処理の非専門家には認知度が比較的低いかもしれません。しかし、DINO v2はその汎用性の高さと卓越した性能により、画像分類、オブジェクト検出、特徴量抽出など、多種多様なタスクにおいて適用可能な基盤モデルの一つとされています。その重要性は、画像処理のあらゆる分野で無視することのできないものとなっています。

DINO v2が開発された背景

DINO v2は、画像データから意味のある特徴を抽出する「表現学習」の進展を基に開発されました。表現学習は、大量のデータを利用して特徴を自動的に学習する技術であり、特にラベルが付与されていないデータ（非ラベルデータ）の活用において重要な役割を果たします。

この分野では「自己教師あり学習」という手法が広く採用されています。自己教師あり学習は、人間が特定の答えを与えることなく、画像データの持つ本質的かつ汎用的な情報を抽出することを目的としています。そのため、特定のタスクに依存しない柔軟性を備えています。

まずはDINO v2の公式HP[6]に掲載されている出力例を見てみましょう。

以下の動画（図２）では、DINO v2が生成した特徴量に主成分分析（PCA）を行い、その第一主成分を可視化したものを表示しています。犬が画像内で走り回ったりポーズが変わったりした場合でも、頭部、胴体、足といった部位ごとに一貫した特徴量を出力し続けていることが分かります。

図２：DINO v2の出力特徴量の第一主成分。引用元：[6]

同じく公式HP掲載の図3では、鳥や飛行機など全く異なる対象について、「胴体」「両翼」「機先」といった対応する部位に対し、同様の特徴量を出力していることが分かります。また、象や車の画像に対しては、イラスト、実写画像、彫像といった異なるドメインでも、それぞれの対応する部位に対し、一貫した特徴量を出力していることを示しています。

図３：DINO v2の出力特徴量の第一主成分。引用元：[6]

ここで、DINO v2は、特定のクラスを指定した検出や部位推定、セグメンテーションといった明確なタスクを直接解くモデルではないことに注意してください。逆に、大量の画像データを通じて「与えられた画像を見る際に、どこをどのように注目すべきか」という漠然とした情報を学習した結果、このような汎用的な出力が可能になっています。

この特性により、DINO v2は多種多様な画像処理タスクで活用される柔軟性を備えており、実際、Papers With Code [7]における表現学習の性能比較でも、DINO v2は2023年初頭の発表以来、2年近く首位の座を維持し続けています。

DINO v2に至るまでには、表現学習として以下のような手法が開発されてきました。　

Contrastive Learning（CL）

Contrastive Learning（CL）では、データ間の類似性や相違性を学習することで、質の高い特徴表現を構築します。この手法では、自身と同じ画像（ポジティブペア）と違う画像（ネガティブペア）を利用し、それぞれのデータに対応する特徴量の距離を近づけたり離れたりするように学習することで、意味のある表現空間を作り出します。

CLの学習は、人間による教師データ作成が不要な「自己教師あり学習」の一つです。MoCo[8]やSimCLR[9]がこの方法を採用して高いパフォーマンスを実現した代表的な手法となります。

図４：Contrastive Learning手法であるSimCLRの学習の概略図。引用元：[10]

このContrastive Learningの発展手法として、Meta社が提案したのがDINO[11]です。この論文では過去のCLの知見を組み合わせ、Convolutional Neural NetworkとVision Transformerの両方で精度の高い表現学習を実現を目的としました。

この時期までには、CLにおいてネガティブペアを使用せずにポジティブペアのみの学習でもうまくいくことが明らかになりつつありました。そのためDINOは"self-DIstillation with NO labels"、つまり「教師ラベル無しの自己蒸留」による学習を行う手法という位置づけで名付けられています。つまり、ポジティブペア（同じ元画像に異なる加工をかけた画像ペア）に対して、生徒モデルと、その指数移動平均（EMA）である教師モデルを用意し、両者が近い出力を出すように生徒モデルを学習していくやり方です。

この手法により、DINO（v1）は特にVision Transformerにおいて高精度を達成し、SimCLRやMoCoなど他の手法と競合する有望なアプローチの一つとなりました。

図５：DINO v1[11]の概略図

Masked Auto-encoder （MAE）

画像分野における「自己教師あり学習」としてCLの後に登場したMasked Auto-encoder（MAE）は、入力データの一部をマスクし、その隠された部分を復元するタスクを通じて画像表現を学習します。MAEの初期の論文である"Masked Autoencoders Are Scalable Vision Learners"[12]は、言語分野で用いられる穴埋め問題形式の学習手法「BeiT」を画像分野に適用する形で考案されました。

特にVision-Transformerモデルに対して優れた性能を発揮し、CLと競り合う存在となりました。さらに改良が重ねられることで、その地位を確立しています。

図６：MAE[12]の学習の概略図

MAEと同じく復元タスクによる表現学習を行う手法の一つが、ByteDance社の発表したiBOT[13]です。iBOTは、MAEに近い基本コンセプトで、画像そのものではなく、画像から動的に生成されたトークンを復元するタスクを解くことで、画像表現の学習を効率化する手法です。

さらに、iBOTは自己蒸留の仕組みを採用しています。具体的には、生徒モデルの指数移動平均を教師モデルとしておき、教師モデルにはマスクされていない入力を行います。生徒モデルにはマスクされた入力をし、教師モデルと出力が近づくような学習を行っています。

※　iBOTの詳しい説明に関してはAI-SCHOLAR様の技術ブログ[14]が詳しいです。

表現学習はこうした手法により、多様なタスクに適用可能な汎用的なモデルを生み出そうという試みを進めてきました。

DINO v2の論文[1]概説

このような背景のもと、DINO v2は開発されました。DINO v2を一言で表すなら、「iBOTの技術を基盤に、さらなる改良を加えた手法」と言えます。

大きな改善点の一つは、学習に使用したデータセットの改良です。DINO v2では、ImageNetやPASCAL VOC、ADEK20といった信頼性の高い確立されたデータセットを基盤に、それらを参照しながらインターネットから自動収集した質の高い画像を追加しました。このプロセスで収集された1億枚を超える画像セットは「LVD-142M」と名付けられ、モデルの学習に使用されています。

※　データセットの構築（データキュレーション）に関する詳細は、Tsubato様の技術ブログ[15]でも分かりやすく解説されていますので、そちらも参照してください。

さらに、DINO v2ではモデル構造や学習手法にも先行研究の知見を組み合わせた工夫を取り入れており、それぞれが性能向上に寄与しています。ただし、論文中ではこれらの工夫について以下のように簡潔に触れるに留めており、詳細については引用元の論文を参照するよう記されています。

We rapidly introduce each of these approaches, but more details can be found in the related papers, or in our open-sourced code

※　DINO v2論文[1]中より抜粋

補足

DINO v2の論文には、DINO v1[11]の筆頭著者が共著者として携わっており、どちらもMeta（旧Facebook）によって発表されたという関連性はあります。しかし手法としては、一見すると設計が大きく異なっており、バージョン違いの後継手法ではなく、全く新しいアプローチに思えるかもしれません。DINO v1がContrastive Learning（CL）を基盤としている一方で、DINO v2はMasked Auto-Encoder（MAE）の考えをベースにしたiBOT[13]の改善という動機づけだからです。私自身、DINO v2の論文を最初に目にしたとき、その違いに混乱しました。

自己教師あり学習の変遷を振り返ることにより、DINO v1とDINO v2の繋がりが見えてきます。以下は、その流れを整理した私の見解です。

多くのCL手法の試行錯誤の中で、ポジティブペアのみを用い、自身の指数移動平均（EMA）を教師モデルとする自己蒸留の考えが有望であることが明らかになりました。
MAEは、入力画像やその特徴空間にマスクをかけ、隠された情報を復元するタスクを通じて学習を行います。このアイデアは、次世代の自己教師あり表現学習の基盤となりました。
iBOTは、MAEの学習に対して自己蒸留の構造を取り入れることで、より高性能な表現学習を実現しました。

こうした背景を踏まえて改めて繋がりを考え直してみると、iBOTは「CLのポジティブペアに対するデータ加工（オーグメンテーション）としてMAEを導入し、CLの知見から生まれDINO v1で有効性が確認された自己蒸留の構造を用いる」手法と見なすことが出来ると思っています。言い換えれば、iBOTは「CLとMAEの両方の流れを受け継いだ手法」なのです。

さらにDINO v2は、このiBOTをベースとして、学習データを1億枚以上に拡張し、他の先行研究で得られた知見を統合することによって基盤モデルと呼べる性能を達成しました。このように考えていくと、DINO v2は、DINO v1を含む自己教師あり表現学習の多様なアプローチを吸収し、成熟させることで一つの決定版となりえた手法なのでしょう。

DINO v2でできること

Meta社によるDINO v2の公式サイト[6]では、以下のタスクがサンプルとして紹介されています。

DINO v2の出力特徴量をそのまま活用
- Instance Retrieval
- Dense/Sparse Matching
DINO v2の後段にシンプルなヘッド（線形層など）を追加し、その部分のみ学習
- Classification
- Depth Estimation
- Semantic Segmentation

これらのタスクは、DINO v2本体の再学習を行わず、出力をそのまま使うか、後段に非常にシンプルな追加構造を加えるだけで実現可能です。こうした特性は、DINO v2が「基盤モデル」として高い汎用性と性能を持つことを示す、説得力のある実例と言えるでしょう。

最後に、DINO v2を基盤モデルとして利用した研究の例をいくつか挙げてみます。

画像から抽出したセマンティックな情報を利用

DINO v2は、画像から「物体の種類」「形状」「配置」などのセマンティックな情報を捉える能力を持ちます。この能力により、画像内の各ピクセルや領域が「どの物体に属するか」「物体間の境界はどこにあるか」といった高次元の意味情報を特徴量として抽出できます。

この性質は、物体認識やセグメンテーションの基盤としてだけでなく、後段の処理に必要なセマンティックなマッピングを効率的に提供します。例えば、DINO v2を利用することで、画像中の「背景」と「前景の物体」や「異なる物体同士の関係性」をモデルが理解しやすくなります。この抽出された情報は、多くのタスクにおいて精度向上をもたらす基盤データとして機能します。

"Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data"[16]は、単眼深度推定における汎用的なモデルで、一つの基盤モデルとなりました（その後、後継の手法が開発されています）。アーキテクチャは、特徴量を抽出するエンコーダーと深度を推定するデコーダーで構成されています。

エンコーダー部分にはDINO v2を利用し、重みを追加で学習します。その際には、同じ画像を生のDINO v2（図７の下側）にも入力し、その出力とコサイン類似度が一致するような損失関数を設定します。これにより、「物体と背景の境目」などの重要なセマンティック情報を持つDINO v2の特徴量の利点を残したままメインタスクである深度の学習をすることができ、結果として非常に精度の高い単眼深度推定を実現しました。

図７：Depth Anything[16]の概略図。左下の"encoder"がDINO v2であり、Depth Anything本体（上側）の"encoder"はこの出力に基づいて学習する

他にも、"SNI-SLAM: Semantic Neural Implicit SLAM"[17]では、DINO v2を活用して、SLAM（自己位置推定と環境マッピング）の精度向上を実現しています。

SLAMの基本的な枠組みでは、異なる時刻で観測された同一物体の位置関係を活用してカメラ位置を推定します。SNI-SLAMでは、これに加えてRGB画素値だけでなく、セグメンテーションマップや特徴量マップを用いたマッチングを導入しています。

具体的には、各時刻のRGB画像をDINO v2に入力し、特徴量マップとセグメンテーションマップを生成します。その後、他の時刻の画像については、推定したカメラの相対位置を用いて元の時刻の画像に座標変換を適用し、擬似的に一致する画像を生成します。このプロセスにおいて、RGB値だけでなく、セグメンテーションマップや特徴量マップの一致度を評価基準（損失関数）に含めることで、より高精度なカメラ位置の推定が可能になります。

このアプローチにより、単なる位置推定にとどまらず、物体のセマンティックな情報を活用した高精度なSLAMを実現しました。DINO v2の強力な特徴量抽出能力が、この性能向上の鍵となっています。

図８：SNI-SLAM[17]の概略図。左の"Feature Extractor"がDINO v2。

同一・類似物体のマッチングを利用

DINO v2は、ドメインが多少異なる複数の画像に対しても、同一または類似の物体に対して近い特徴量を出力します。この特性を活用することで、入力画像中の物体に関して、データベースからの検索が可能です。また、学習において大まかなクラスタリングのようなことを行うことも可能です。

"AnyDoor: Zero-shot Object-level Image Customization"[18]は、画像を合成する生成AIの一種で、ある画像中の任意の物体を他の画像のシーンに自然に配置することが可能な手法です。具体的には、バーチャル試着などの応用が想定されており、ウェブアプリとしての実装も進められているようです。（参考記事[19]）

この手法では、貼り付け元の画像から対象物体の詳細特徴と大域的な「識別」特徴を抽出します。主にハイパスフィルタを利用して詳細特徴を抽出し、DINO v2を用いて「識別」特徴を取得します。「識別」特徴は後段の分類器に入力され、簡単なクラスタリングによって「どんな種類の物体か」を判別します。その結果を最終段の拡散モデルに入力し、物体をターゲットの画像シーンへ自然に統合する画像生成を行います。

論文では、ImageNetで学習済みのVGGやCLIPなど他の特徴抽出器と比較し、DINO v2が最も高品質な合成画像を生成可能であることが示されています。

図９：AnyDoor[18]の概略図。中央下段のSelf-sup. EncoderがDINO v2

位置関係（構造）の情報を利用

DINO v2は物体インスタンス中の、上下前後左右といった方向の情報を抽出することができます。（冒頭の動画で、犬の顔・胴・足に対し違う特徴量を示していたのを思い出してください）。これを使い、物体の向きを推定したり、向きを指定して3Dモデルを作る論文もあります。

"Learning the 3D Fauna of the Web"[20]では、インターネット上で収集した2D画像をもとに、100種類以上の四足動物の3Dモデル（形状、姿勢、外観）を推定する革新的な手法を提案しています。この研究では、DINO v2を画像特徴量を抽出するエンコーダーとして活用しています。

まず、動物の3D形状を特徴づけるパラメータであるアルベド、変形、姿勢、シェーディングを推定します。

また、モデルは学習過程で、データセット内に存在する動物種や、それぞれの「基本姿勢」を理解していきます。似た動物種に対して近い特徴量を出力するというDINO v2の性質を利用し、画像に映る動物種をクラスタリングします。同時に、各動物種の「基本姿勢」と、その姿勢における特徴量マップを同時に学習します。

さらに、DINO v2が画像内の位置情報（例えば、頭部や脚部）を保持する特性を活用し、元画像を直接DINO v2に入力した際の特徴量マップと、上述の「基本姿勢における特徴量マップ」を推定した3D形状に応じて変形した特徴量マップが一致するような損失関数を設計しています。この工夫により、姿勢や形状が自然な状態で動物の3Dモデルを推定できるようになっています。

このアプローチにより、DINO v2の特性を最大限に活用し、任意の四足動物の2D画像から3Dメッシュを推定し、アニメーションやレンダリングに即座に利用できる形として生成することが可能になりました。

図１０：3D-Faunaの概略図。[20]の概略図。

「画像本来が持つ情報情報・特徴量」が得られることを利用

Vision-Language分野では、基盤モデルとしてCLIPが広く使用されています。CLIPの画像エンコーダーは、画像とテキストの関連性を捉える優れた特徴量を提供しますが、その設計上、言語と結びつきすぎているため、特定のタスクでは制約となる場合もあります。

一方で、DINO v2は画像のみを学習対象としており、画像本来が持つ純粋な情報を抽出することが可能です。この特性により、物体の区別やセマンティックな解析を必要とするタスクでは、より適切な特徴量を提供できる場合があります。

"Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs"[21]では、従来のマルチモーダルLLM（MLLM）が視覚情報処理において体系的な課題を抱えていることを示しています。その主な原因として、CLIPの視覚埋め込みが言語に特化しすぎていることを挙げています。これにより、人の目には明らかに異なるのにCLIPが区別を苦手とする画像ペアが存在し、CLIPモデルが苦手とする視覚パターンとMLLMが苦労するパターンの間に顕著な相関があることが分かりました。

そこで「画像に特化した表現学習モデル」であるDINO v2を利用することで、CLIPが苦手としていたシーンも克服し、MLLM全体の性能を向上させることを明らかにしました。

図１１：Multimodal LLM の視覚能力の制限として、CLIPでは特徴量が縮退するため、関連する質問への答えを間違える画像ペアの例。DINO v2では離れた特徴量が出力される。引用元：[21]

その他

画像生成の品質評価指標として「生成された画像が参照画像をどれだけ忠実に再現しているか」をDINO v2の出力特徴量の類似度によって定量的に評価する方法も採用されています。

さいごに

DINO v2は、「自己教師あり表現学習によって画像本来の本質的な特徴を抽出可能になった、画像処理における強力な基盤モデル」であり、近年の多くの論文でその特性を活かした活用が進んでいます。

個人的には、以前にContrastive Learningに関するブログ記事を執筆したこともあり、表現学習の発展に注目してきましたが、現状DINO v2はその決定版の一つと言えるでしょう。今後もDINO v2を基盤とした新しい研究や応用が次々と登場することが期待されます。今回の記事が、その潮流に対する皆様の理解への一助となれば幸いです。

出典

[1] Maxime Oquab, Timothee Darcet, Theo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, et al. "Dinov2: Learning robust visual features without supervision." arXiv preprint arXiv:2304.07193, 2023. Available: https://arxiv.org/pdf/2304.07193

[2] Yunsong Zhou, Michael Simon, Zhenghao Peng, Sicheng Mo, Hongzi Zhu, Minyi Guo, and Bolei Zhou. "SimGen: Simulator-conditioned driving scene generation." arXiv preprint arXiv:2406.09386, 2024. Available: https://arxiv.org/pdf/2406.09386

[3] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. "Learning transferable visual models from natural language supervision." ICML, 2021. Available: https://proceedings.mlr.press/v139/radford21a/radford21a.pdf

[4] Rombach, Robin, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. "High-Resolution Image Synthesis with Latent Diffusion Models." arXiv preprint arXiv:2112.10752 (2021). Available: https://arxiv.org/abs/2112.10752

[5] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollar, Ross Girshick. "Segment Anything." Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2023. Available: https://openaccess.thecvf.com/content/ICCV2023/papers/Kirillov_Segment_Anything_ICCV_2023_paper.pdf

[6] DINOv2 by Meta AIによるDINO v2の公式HP: https://dinov2.metademolab.com/

[7]"Self-Supervised Image Classification on ImageNet" in Paper With Code. Available: https://paperswithcode.com/sota/self-supervised-image-classification-on

[8] He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). "Momentum contrast for unsupervised visual representation learning." In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 9729-9738). Available: https://openaccess.thecvf.com/content_CVPR_2020/papers/He_Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning_CVPR_2020_paper.pdf

[9] Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020, November). "A simple framework for contrastive learning of visual representations." In International conference on machine learning (pp. 1597-1607). PMLR. Available: http://proceedings.mlr.press/v119/chen20j/chen20j.pdf

[10] SimCLRのプロジェクトページ: https://simclr.github.io/

[11] Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). "Emerging properties in self-supervised vision transformers." In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9650-9660). Available: https://openaccess.thecvf.com/content/ICCV2021/papers/Caron_Emerging_Properties_in_Self-Supervised_Vision_Transformers_ICCV_2021_paper.pdf

[12] He, K., Chen, X., Xie, S., Li, Y., Dollár, P., & Girshick, R. (2022). "Masked autoencoders are scalable vision learners." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16000-16009). Available: https://openaccess.thecvf.com/content/CVPR2022/papers/He_Masked_Autoencoders_Are_Scalable_Vision_Learners_CVPR_2022_paper.pdf

[13] Jinghao Zhou, Chen Wei, Huiyu Wang, Wei Shen, Cihang Xie, Alan Yuille, and Tao Kong. "Ibot: Image bert pre-training with online tokenizer." arXiv preprint arXiv:2111.07832, 2021. Available: https://arxiv.org/pdf/2111.07832

[14] AI-SCHOLAR, 2022年01月05日, "自己蒸留でCVのBERTを目指すiBOT" Available: https://ai-scholar.tech/articles/transformer/iBOT

[15] Tsubatoの発信記録, 2023-05-22, "MetaのコンピュータビジョンモデルDINOv2はどのような自己教師あり学習を行っているか？" Available: https://aburaku.hatenablog.com/entry/dinov2

[16] Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. "Depth anything: Unleashing the power of large-scale unlabeled data." In CVPR 2024. Available: https://openaccess.thecvf.com/content/CVPR2024/papers/Yang_Depth_Anything_Unleashing_the_Power_of_Large-Scale_Unlabeled_Data_CVPR_2024_paper.pdf

[17] Siting Zhu, Guangming Wang, Hermann Blum, Jiuming Liu, Liang Song, Marc Pollefeys, Hesheng Wang. "SNI-SLAM: Semantic Neural Implicit SLAM". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. Available: https://openaccess.thecvf.com/content/CVPR2024/papers/Zhu_SNI-SLAM_Semantic_Neural_Implicit_SLAM_CVPR_2024_paper.pdf

[18] Xi Chen, Lianghua Huang, Yu Liu, Yujun Shen, Deli Zhao, Hengshuang Zhao. "AnyDoor: Zero-shot Object-level Image Customization". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. Available: https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_AnyDoor_Zero-shot_Object-level_Image_Customization_CVPR_2024_paper.pdf

[19] ジコログ, 2023.12.21, "Windowsユーザー必見！仮想試着が可能なAnyDoorのインストール", Available: https://self-development.info/windows%e3%83%a6%e3%83%bc%e3%82%b6%e3%83%bc%e5%bf%85%e8%a6%8b%ef%bc%81%e4%bb%ae%e6%83%b3%e8%a9%a6%e7%9d%80%e3%81%8c%e5%8f%af%e8%83%bd%e3%81%aaanydoor%e3%81%ae%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88/

[20] Zizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu. "Learning the 3D Fauna of the Web". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. Available: https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Learning_the_3D_Fauna_of_the_Web_CVPR_2024_paper.pdf

[21] Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie. "Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs". Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. Available: https://openaccess.thecvf.com/content/CVPR2024/papers/Tong_Eyes_Wide_Shut_Exploring_the_Visual_Shortcomings_of_Multimodal_LLMs_CVPR_2024_paper.pdf

EVS による光無線通信（QR コード 3次元化）- EVS ハッカソン Team B

2025-02-05T11:50:00+09:00

こんにちは、プロダクト開発部の吉田仁です。

先日、EVS（イベントベースビジョンセンサー）の実用化を目的とした社内ハッカソンが開催されました。（プレスリリース）

今回は、ハッカソンにおける私たちのチーム（全 3 チーム中の一つ）の取り組みについて紹介します。

EVS とは？

EVS（Event-based Vision Sensor）は、輝度変化のみを記録するセンサーです。従来のカメラとは原理もコンセプトも全く異なっていて、「動き」を捉えることに特化しているといえます。従来のカメラだと、動画はあくまでも静止画の連続に過ぎないため、「動き」を知るためには静止画同士を比較する等、それなりの画像処理が必要でした（例えば、弊社製品 Motion Sensor のような）。しかし、EVS カメラを使えば「動き」のデータが直接的に取得できます。しかも、飛び散る火花を粒子として写し止めるほど、高速に「動き」を捉えることができます。

出典：ソニーセミコンダクタソリューションズグループ

www.sony-semicon.com

私たちのチームの取り組み

私たちは「EVS による光無線通信」を開発テーマに掲げ、まずはその基礎技術として「QR コード 3次元化」の開発に取り組みました。

既存の QR コードは 2次元。そこに時間軸の次元を追加して 3次元化。
平面上の各ドットが、特定の動作周波数で明滅する。
デジタルデータを明滅パターンに符号化して、その明滅を EVS カメラで捉えて、デジタルデータに復号化する。
メリット：送信できるデータ量を大幅に増やせる。

ブレインストーミングから開発テーマの決定まで

ブレインストーミングでは、EVS の特徴を最大限に生かせるのは何か？という観点で様々なアイデアを出しました。EVS の特徴の中から特に、私たちのチームは、1万～ 2万 fps に相当するという高時間分解能に注目しました。EVS で通信はできるであろう、しかも、高時間分解能ゆえにハイスピードな通信が可能ではないかと考えました。

そこで私たちはまず、光無線通信について一般的に考えてみました。

既存の光通信

有線方式と無線方式があります。

方式	通信
有線	光ファイバー通信 (Fiber-Optic Communication)
無線	光無線通信 (Optical Wireless Communication)

光ファイバー通信の弱点

レーザー光が必要。
光ケーブルで物理的につなげる必要がある。
モバイルルーターのように持ち運びができない。

水中での無線通信

電波による水中無線通信

水中での減衰が激しいため、ほとんど行われていない。
音響による水中無線通信

長距離通信が可能。しかし、データ量が小さい。（数 kbps）
可視光による水中無線通信

音響通信ほどの長距離は無理なようだが、それでも海中 IoT を構築するには充分な距離は出せる。島津製作所、海洋研究開発機構、KDDI 総合研究所などが海洋開発の分野で研究開発に取り組んでいる模様。

開発テーマの決定

このような現状を踏まえて、私たちのチームでは、EVS による光無線通信は、

高速・大容量の通信が期待できる。
海中 IoT の実現に一翼を担う可能性がある。

と考えました。

そこで、まずはシンプルな「通信するだけの機能」を実装してみよう、というのが今回の開発テーマ「QR コード 3次元化」になります。「EVS による光無線通信」に向けての第一歩という位置付けであり、その応用の一つでもあります。

QR コード 3次元化の処理概要

3次元化した QR コード（のようなもの）を液晶モニターに表示（動画を再生）して、それを EVS カメラで撮影します。

想定している状況としては、街中のデジタルサイネージに表示されている QR コード動画を 1、2メートルほどの距離から読み取る、という状況です。

機能

文字列の送受信
送信側

液晶モニター
受信側

EVS カメラ

送信側

送信メッセージを ASCII コードに変換
- 送信メッセージ（任意）
```
  !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQ ...
```
  ASCII コード 0x21 から 0x7D までを順番に並べました。
- ASCII コード
```
  0010 0001 , 0010 0010 , 0010 0011 , 0010 0100 , 0010 0101 ...
```
ASCII コードを白黒パターンとして画像化

やが 1 ビット分のデータを表します。

横 8 ビット × 縦 8 ビット

複数フレームを動画にして再生

動画は以下の 3つのセクションに分かれています。

セクション	内容	フレーム数
Header	特定（1111 1111 0000 0000 等）	特定
Data	送信したいデータそのもの	データ量に応じて変動
Footer	特定（0000 0000 1111 1111 等）	特定

受信側では、Header セクションと Footer セクションに挟まれたフレームが Data セクションであると判定します。

Data セクション

各フレームは、左半分と右半分という構成になっています。

左半分

デバッグ用です。

上の数字はフレーム番号で、下はセクションごとのフレーム番号になります。
右半分

データ領域です。

四隅に配置している ArUco マーカーは、台形補正のために使用します。

Data セクションの具体例

ここでは 2フレームだけ抜粋します。この 2種類の繰り返しになります。

24 フレーム目
25 フレーム目

受信側

EVS カメラのデータを取得

液晶モニターに表示している動画を EVS カメラで撮影します。
ノイズ除去

Metavision SDK の TrailFilter を使用しました。
ArUco マーカーを検出

ArUco マーカーは特定の位置、かつ同一周期で点滅しています。Metavision SDK の BlinkingFrameGenerator は、特定の範囲が点滅しているかどうかを検出して、その周期を取得することができるので、これを使いました。
ArUco マーカーを使って台形補正

補正前（カメラの構図はあえて無作為）

補正後
所定の位置の画素値を読み取る
白黒パターンを ASCII コードに変換

通信速度

既存の QR コード

表現できる情報量は、バイナリデータの場合は 2,953 byte、すなわち約 24 kbit です。（kbit は見慣れない単位ですが、下記 kbps との比較のために）

今回の実験

以下の計算から、約 3.8 kbps になります。

1フレームあたりのビット数

8 × 8 = 64 bit
リフレッシュレート

60 Hz
通信速度

64 bit × 60 = 3,840 bps

高速化した場合の予想

やや恣意的な仮定に基づく予想になりますが、

・格子サイズを細かくする

・ゲーミングモニターを使う

といった高速化により、以下の計算から、約 1 Mbps くらいになるのではないかと考えています。

1フレームあたりのビット数

50 × 50 = 2,500 bit

QR コード全体の表示サイズは、街中のデジタルサイネージという想定で、15cm × 15cm くらいとします。これはちょうど今回の実験（ノート PC の右半分）と同じ大きさです。今回の実験では、四隅の ArUco マーカーが無事に検出できています。その ArUco マーカーの格子と同じサイズとすると、50 × 50 という格子になります。
リフレッシュレート

360 Hz
通信速度

2,500 bit × 360 = 900 kbps

今後の予想、応用のアイデア等

モバイル端末への搭載

現状の EVS カメラは手のひらサイズですが、センサーは既に充分小型化されているので、将来的にはモバイル端末に搭載できるほど小型化されるのではないかと想像しています。

送信側と受信側が 1 対多のケース

送信側

街中のデジタルサイネージ
受信側

EVS カメラ搭載のモバイル端末

デジタルサイネージから発信されている信号を、複数の人々が同時に、モバイル端末を使って読み取ります。送信側は、屋内の LED 照明や、街灯の LED 照明とすることもできそうです。

送信側と受信側が多対 1 のケース

送信側

小型 LED

・携帯可能なサイズ

・機器固有のパターンで明滅
受信側

監視カメラ

小型 LED を白杖の先端に取り付けたり、子供のカバンに取り付けたりします。ある場所に設置された監視カメラが、その小型 LED を検出すると、明滅パターンから持ち主を特定することができます。これは「その持ち主が、そこを通った」という証拠になり、視覚障害者や子供、特別支援を必要とする方など、単独行動に不安がある方を見守ることができます。迷子になったら、発見することもできそうです

傍受されない 1 対 1 の通信

レーザー光を必要としないのが EVS による光無線通信の特徴の一つですが、あえてレーザー光を使うことで、通信に秘匿性を担保することもできます。レーザー光は指向性が高い（拡散しない）ため、送信側と受信側が正対していれば、傍受されるリスクは低減されます。

まとめ

今回のハッカソンは作業期間が短く、最終発表日の朝にようやく受信に成功という、慌ただしい状態で終了しました。そのため、当初の予想である、EVS で通信できるであろうことは確認できましたが、どこまで高速化できるのか？というところまでは残念ながら追求できませんでした。

EVS を実際に使ってみて感じたのは、EVS の高時間分解能は本当に凄くて、液晶モニター（60 Hz）のリフレッシュのラスタスキャンをスローモーションのように見ることができてしまいます。ゲーミングモニター（360 Hz）のラスタスキャンをも EVS はスローモーションとして捉えることができるのか（スペック上は余裕で可能なはず）、実際に試してみたくなります。EVS を使っていると、時間方向のミクロな世界に入り込んだようで、ワクワクします。今後も EVS に注目していきたいと思います。

OJT 2024：カメラを用いた自律探索

2024-10-10T11:31:31+09:00

こんにちは。2024年入社の南です。今年度の新人グループ研修について報告します。

はじめに

弊社では２か月間のグループ研修を実施しています。今年度の参加者は朱と南の２名で、テーマは「カメラを用いた自律探索」です。

ここでいう自律探索とは、ロボットが予め与えられたプログラムのみに従って、未知の空間内を網羅的に動き回ることです。具体的には、被災地の地図作成や倉庫管理などへの応用が期待されます。今回私たちは、家の中を自動で探索しその家の間取り図を作成するロボットの開発を目指します。研修内容としてはSLAM（自己位置推定と地図作成）やナビゲーションといったタスクに取り組みます。

この研修では、センサーとして光学カメラのみを用いることが要件として与えられました。自律探索ができるロボットはすでに社会実装されており、掃除ロボットや配膳ロボットなどがそれに当たります。これらは主にLiDARセンサーやRGBDカメラなど周囲の物体までの距離を測定できるセンサーを用いています。光学カメラで撮った画像からはこの距離を計算するのが難しいものの、LiDARなどより安価なため、ロボットの価格を下げることが期待できます。

使用機材

魚眼カメラ４台
TurtleBot3 Waffle Pi（移動用モジュール）１台
Jetson Orin Nano（コンピューター）１台
三脚１台

TurtleBot3の上に三脚を置き、三脚の上にJetson Orin Nanoを固定しています。Jetson Orin Nanoには魚眼カメラ４台を90°ずつ向きを変えて前後左右に設置しました。これは全方位360°をカバーするためです。TurtleBot3にはLiDARなどのセンサーが搭載されていますが、これらは使わず、移動にのみ使用します。

ロボット全体の写真

システム構成

私たちは目標の達成にむけて、課題を以下の４つに分けました。それぞれ詳細に紹介します。

自己位置推定
点群作成
フロア内の障害物の位置を記録した二次元地図の作成
二次元地図を用いた探索

システム構成

1. 自己位置推定

ロボットが最初に置かれた地点を原点としたときの、現在地における座標と向きを推定するタスクです。これはSLAMと呼ばれるタスクの一部で、SLAMは2D/3D LiDAR、RGB画像、RGBD画像など様々な入力データに対するアルゴリズムがそれぞれ研究されています。

中でも、画像を入力とするSLAMは Visual SLAM（vSLAM）と呼ばれます。vSLAMでは連続する画像を入力とし、ある画像の各ピクセルが次の画像のどのピクセルと同じ箇所を写しているかをマッチングし、カメラの移動距離を計算します。vSLAMはマッチングに全ピクセルを使用するものと机の角などの特徴的な点（特徴点）を使用するものに分けられます。一般的に、全ピクセルを使用するモデルは高精度であるものの、計算時間がかかる傾向にあります。今回はリアルタイムで動かしたいため、特徴点を使用する手法を採用しました。

自己位置推定デモ

2. 点群作成

vSLAMではマッチングに使用したピクセルが点群として出力されますが、今回は特徴点を用いる方法を使っているため、限られた点群しか作成されません。特に問題なのが、模様のない平面には点群が与えられないので、壁や柱を認識することが困難な点です。そのような物体でもロボットに認識させるために深度推定を行います。

深度推定とは、入力画像の各ピクセルについて、カメラ平面からの距離を推定するタスクです。カメラの画角や焦点距離といった内部パラメータがわかっている場合は、深度から点群を作成することができます。深度推定には大きく分けてステレオ画像（右目視点と左目視点の２枚の画像）を使用したステレオ深度推定と、１枚の画像のみ使用する単眼深度推定があります。今回のセットアップではどちらの手法も使えますが、ステレオ深度推定にもやが見られたため単眼深度推定を使用しました。以下の図が、推定した深度画像とそれを変換した点群です。

入力した画像（上）と出力された深度画像（下）

深度画像から作成した点群を斜め上から見た画像

また、簡易デモとして、目の前に壁があったら方向転換をするロボットを作成しました。こちらは深度推定による点群作成さえできれば走らせることができます。

壁をよけるロボットの動画（４倍速）

3. フロア内の障害物の位置を記録した二次元地図の作成

推定された自己位置と点群の情報を組み合わせると、三次元の点群地図を作成することができます。こちらが作成した三次元の点群地図です。

三次元点群地図の作成（16倍速）

しかし点群地図のままでは扱いづらく、地図内の未探索エリアを探し出したり目的地点への経路を計算したりする処理が複雑になり時間もかかってしまいます。そこで、点群地図ではなく二次元地図を作成します。

今回作成した二次元地図は空間を5 cm x 5 cm程度のマス目状に分けたもので、それぞれのマスに未探索、探索済、壁の３種類のラベルを割り当てます。作成手順としては、最初に適当な大きさの二次元地図を用意し、すべてのマスに未探索ラベルを割り当てておきます。画像が与えられて自己位置推定と点群作成が完了するたびに、点群の各点を壁に、自己位置から点群の各点までを探索済にラベルします。その際、天井や床などのロボットが当たらない高さにある点は、点群から除去しておくことが必要です。下の画像がこのようにして作成した二次元地図です。

作成した二次元地図（左）と実際の机の配置（右）

4. 探索

二次元地図が作成出来たら、その地図の未探索部分に向けて経路を計算し、パスプランニングを行います。研修では二次元地図と組み合わせるには至りませんでしたが、アイディアを簡単に紹介します。

手順としては以下の通りです。

１. 二次元地図を受け取る。

２. 二次元地図における未探索のマスのうち、探索済と接するマスを「境界」として色分けする。

３. 隣接した境界マスをまとめて境界グループにする（下図オレンジ枠）。境界グループ内の点の座標の平均をそのグループの代表点とする。境界グループについて、含まれるマス数や現在地から代表点までの距離などをもとに優先度を決める。

４. 優先度が最も高いグループの代表点まで移動する。

５. １～４を境界グループがなくなるまで続ける。

二次元地図　青：未探索、赤：壁、緑：探索済、星：現在地、オレンジ：境界グループ

cartographerを使った自律探索シミュレーション

まとめ

今回の研修では、地図の作成途中でタイムアップとなりました。現在の二次元地図は探索に使用できるほどの精度はなく、一部の誤って計算された点群によって何もない空間に柱や壁ができてしまう課題があります。これを除去し、二次元地図の精度を高めることが次のステップとなります。研修としては終了しましたが、技術力向上と社内ノウハウ蓄積のため今後も目標達成に向けて続けていく予定です。

最後までお読みいただき、ありがとうございました。

JDLA主催「CVPR2024技術報告会」発表資料

2024-09-20T10:00:00+09:00

先日、日本ディープラーニング協会主催（JDLA）の「CVPR2024技術報告会」にてモルフォの技術者が登壇いたしました。

www.morphoinc.com

昨年に引き続きまして、CVPRという国際学会の重要性や、今年のトレンドの分析、モルフォの技術者が注目した分野や論文について紹介しました。

当日の発表資料を共有させていただきます。

JDLA主催CVPR2024技術報告会ーコンピュータビジョン技術の最前線ー by @Morpho

発表動画については是非以下のリンクからご視聴ください。

https://www.youtube.com/live/uic0Z-Gk7ac

A Brief Survey of Schrödinger Bridge (Part I)

2023-09-12T10:00:00+09:00

こんにちは、CTO室リサーチャーの長山と申します。

モルフォでは毎週金曜日に持ち回りで論文紹介等を行うJournal Clubという取り組みを行っています。今回は、私がその場で発表したSchrödinger Bridge（シュレーディンガー橋; SB）という確率論的生成モデルスキームの解説スライドを公開いたします。

Stable DiffusionやMidjourneyに代表されるような画像生成AI手法は、ここ一年間で目覚ましい発展を遂げたことは記憶に新しいと思います。その原動力となった基礎技術の一つが拡散モデル（Diffusion Models）です。拡散モデルとは、データからノイズへと徐々に崩壊するような過程を学習し、その逆過程（すなわちノイズ除去）をシミュレーションすることで目標のデータを創り出すような手法と説明することができます（図1）。高い生成品質かつ安定した学習を実現できることから、拡散モデルは画像生成AIにおける以前の主流であった敵対的生成ネットワーク（Generative Adversarial Networks; GANs）を現在進行系で置き換えつつあります。

図1: 拡散モデルの崩壊・生成過程（引用: arXiv:2006.11239）

画像生成AIという名称を聞くと、入力したお題に沿った絵をAIが生み出す「お絵描きAI」を一番に想像される方が多いと思いますが、それ以外にImage-to-Image（画像から画像への変換）へも応用されています。 Image-to-Imageの例としては、画像中の不要な対象を違和感なく消すようなタスクであるインペインティングが特に印象的です。他にも、画像サイズの拡大（超解像）や画像をくっきりさせる処理（ボケ除去）などもImage-to-Imageの一種といえます。もちろん、拡散モデルを応用したImage-to-Image手法も数多く提案されていて、様々なタスクにおいてSOTAに匹敵する性能が報告されています。

しかしながら、拡散モデルを使ったImage-to-Imageと謳うほぼ全ての手法は、実は厳密には画像から画像へと直接的に変換しているわけではありません。ノイズから画像を生成するモデルにプロンプト（お題のテキスト）で条件付けした手法がお絵描きAIであるのと同様に、入力画像で条件付けしたときのモデルのことを、拡散モデルの文脈では一般にImage-to-Imageと呼んでいます（図2左）。

図2: 拡散モデルと"真の"Image-to-Image手法の比較

ここで、"原画像"と"ノイズ"の2要素を使って生成するのは一見すると無駄が多そうなので、「"原画像"だけで拡散モデルと同じようなことはできないのか？」という素朴な疑問が湧くのは自然なことでしょう。ですが、拡散モデルという枠組みの上ではノイズを利用することが本質的なので、これを変更することは容易ではありません。

このような問いに対する答えの一つがSchrödinger Bridge（SB）と呼ばれる生成モデルスキームです。結論から述べると、SBはノイズの制約を取り払った拡散モデルとみなすことができ、直接的なImage-to-Imageを構成することができます（図3）。

図3: 密度関数の時間発展の比較

SBの詳細については以下のスライドをご覧ください。このスライドの前半では、いわゆる "拡散モデル" の時間連続化に相当するスコアベース生成モデル（Score-based Generative Models; SGMs）の基礎事項について簡潔に述べています。そしてスライドの後半では、SGMの一般化を動機としてSBモデルを導入し、最適輸送（Optimal Transport; OT）との関係性ならびに機械学習分野で最近よく用いられる形式の定式化について解説しています。

なお、今回はSBの基本的な性質に絞って説明を行ったため、具体的な学習方法（損失関数の設計方法など）や応用手法については触れていません。これらにつきましては、今後公開する Part II 以降にて解説する予定です。

A Brief Survey of Schrödinger Bridge (Part I) fromMorpho, Inc.

OJT 2023: ジェスチャー認識とRealSenseを活用したARアプリ

2023-08-17T10:00:00+09:00

こんにちは。23年度入社のリサーチャーの三冨です。入社後2か月間にわたったグループ研修の内容と結果について報告します。テーマは「深度情報を利用したアプリケーション」です。

はじめに

私たちはECサイトで用いられる商品紹介のためのARアプリを題材として研修を行いました。このようなアプリの例として家具の配置をシミュレートするARアプリが挙げられます。カメラ映像に3Dモデルをリアルタイムに重ねて表示できるものです。部屋を映せば家具のコーディネートが購入前に確認できます。

このようなアプリに、3Dハンドジェスチャー認識機能を搭載して機能拡張することを考えました。通常の2Dジェスチャー認識に加えてカメラと手の距離が分かることで、より正確な認識とより直感的な操作ができます。それを活かせれば、ゆくゆくは3Dモデルを実物のように運んだり動かしたりできそうです。

RealSenseはこのようなアプリの実装に適しています。RealSenseは深度（カメラと映った物との距離）センサとRGBセンサを合体させたデバイスであり、深度イメージ処理用のプロセッサや豊富なライブラリも用意されています。そのためリアルタイムに3Dジェスチャー認識するアプリを短期間で作成するのにうってつけでした。

システム構成

私たちが作成したARアプリは、RealSenseに映した机の上に仮想的な商品（ARオブジェクト）を描画するものです。さらに3Dジェスチャー認識により商品を移動・回転・拡大縮小することが可能です。これにより例えば文房具のような机上で用いられる商品を、実際の利用環境に近い形で詳細に見ることができます。

ARアプリで行っている処理のおおまかな流れについて図1に示します。推論を行うPythonプログラムとARの描画を行うUnityアプリの2つから構成されています。推論結果の通信はソケット通信、RealSenseから取得したRGBフレームの通信はOBS Studioの仮想カメラ機能を用いました。

図1: システム概要図

机平面の3D情報の取得

ARアプリを作成する上で机平面の3D情報を取得する必要があります。なぜならARオブジェクトの3D空間上の初期位置を定義し、①ジェスチャーで移動・回転させるときのオブジェクトの見え方を正しく描画する、 ②カメラだけ移動した場合あたかも3D空間上で静止しているように描画する必要があるからです。

この2つの要求をクリアするため、毎フレームおきに机平面がx-z平面となるような三次元座標系（ワールド座標系）を定義し、その座標系におけるカメラの姿勢を求めることにしました。具体的には、机平面にマーカーを3つ配置して、2D画像上のマーカーの位置とRealSenseの深度情報を合わせてカメラ座標（カメラ位置を原点とする3D座標）を取得します。3つのマーカーのカメラ座標が分かれば机平面を張る2本の3次元ベクトルが得られるため、外積などを利用して正規直交基底を計算します。これによりワールド座標系とカメラ座標系との座標変換が分かり、カメラ姿勢を求めることが出来ます。

図2: 机平面の3D情報取得

3Dジェスチャー認識

3Dジェスチャー認識は ①2D画像のジェスチャー認識と ②手のキーポイントの3D座標取得の2つで構成されます。まず ①2D画像のジェスチャー認識は以下のような流れで行われます。

入力画像の中の手を検出する
検出した手の部分を切り抜いた画像から手のキーポイントを検出する
キーポイントの画像座標からジェスチャーの種類を判定する

図3: 2D画像のジェスチャー認識

キーポイント検出までをMediaPipeのHand landmarks detectionで行い、ジェスチャー判定は個人開発モデルを利用させていただきました。

次に ②手のキーポイントの3D座標取得は、前節の方法で得た「ワールド座標系とカメラ座標系との座標変換」を用いて行います。すなわち、キーポイントの2D画像中の位置とRealSenceの深度情報の2つからカメラ座標が求まるので、座標変換によりワールド座標も求まります。

Unityアプリの実装

UnityアプリではRGBフレームを背景画像として、手前に3Dモデルを描画します。今回はハサミの3Dモデルを作成して3つのジェスチャーを用いて動かすことにしました。

人差し指を指しているジェスチャーで、3Dモデルの位置を移動させることができます。
親指と人差し指で挟むようなジェスチャーで、3Dモデルの大きさを変更することと、ハサミの刃を開閉することができます。
手のひらを開いたジェスチャーで、その回転と同じ様に3Dモデルを回転することができます。

これら3つの動作は、指先の座標や手のひら平面の姿勢を計算し、その結果に基づいた3Dモデルの動きをUnity上で実装することで実現しています。それぞれ実際にアプリの様子をご覧ください。

図4: 3Dモデルの移動

図5: 3Dモデルの大きさの変更とハサミの刃の開閉

図6: 3Dモデルの回転

まとめ

本グループ研修ではジェスチャー認識とRealSenseを活用したARアプリの開発に取り組みました。その中でARアプリにおける3D座標の扱い方やジェスチャー認識のディープラーニングに触れることができました。また研修を通じて、アイデア出し・タスク切り出し・開発・評価という一連の流れを経験することができました。

作成したARアプリはジェスチャー認識精度やフレームレート、カメラ座標の振動抑制といった課題が残っています。そのような問題に少しでも対処するため、RealSenseの深度データへのフィルタのような工夫や、軽量な認識器を調査するといった取り組みができました。この経験を今後の業務に活かせればと思います。

以上、本記事を読んでくださりありがとうございます。

JDLA主催「CVPR2023技術報告会」発表資料

2023-08-10T10:00:30+09:00

先日、日本ディープラーニング協会主催（JDLA）の「CVPR2023技術報告会」にてモルフォの技術者が登壇いたしました。

www.morphoinc.com

CVPRという国際学会の重要性や、今年のトレンドの分析、モルフォの技術者が注目した分野や論文について紹介しました。資料を見たいという声を多数いただいたので発表資料を共有させていただきます。

JDLA主催「CVPR2023技術報告会」コンピュータビジョン技術の最前線 by @Morpho

発表動画については以下のリンクから是非ご視聴ください。 https://www.youtube.com/watch?v=XVgUvFig-_M

Contrastive Learningの最新動向のレビュー

2023-05-08T11:30:00+09:00

　こんにちは。CTO室リサーチャーの鈴木です。今回は、深層学習の分野でここ数年盛り上がっているContrastive Learning系の手法について、主だった論文を系統的にまとめて紹介したいと思います。

はじめに

　近年発展した自己教師あり学習（Self-Supervised Learning：SSL）は、アノテーション情報を人の手ではなく機械的に付与することで、データセットの構築にかかる時間やコストを軽減し、深層学習モデルの精度向上を目指した手法です。自然言語処理分野におけるSSLは大きな成功を収め、ChatGPT等の超高性能なチャットボットの出現にも影響を与えました。

　SSLは主に深層学習モデルの「事前」学習として用いられます。SSLによって、文章や画像に含まれる一般的な特徴を大量のデータから学習することができます。これにより、文章生成や画像認識などの本学習の効率が向上し、最終的な性能向上にもつながります。したがって、SSLは、深層学習において広く使用される重要な技術の1つであると言えます。

　今回紹介するContrastive Learning（CL）は、画像処理における代表的なSSLの手法です。データ内で似たもの（正例）と似ていないもの（負例）をグループ化し区別するように学習することで、モデルがより質の高い特徴量を抽出できるようにする手法です。

　本記事ではまずCL手法の基本について説明し、その後近年のCL論文28本について、各手法がCLのどの部分を改善したのかに着目して分類し、それぞれの概要を説明いたします。

Contrastive Learning（CL）

　多くのCL手法では、ある画像（自身）に2つの異なるオーグメンテーションを加えたもの同士のペアを正例、自身と異なる画像とのペアを負例として学習をします。

　初期のCL手法であるNPID（InsDisとも呼ばれます）[1]の概略図を示します（図１）。深層学習モデルを前段の特徴抽出器（backbone）と後段の推論部（head）に分けて考えた時、CLで学習を行うのは主に特徴抽出器の部分（例えばResNet）となります。InsDisでは画像毎に特徴抽出器から得られる128次元の特徴量を用いてCLを行います。また、計算量を増やさず負例の数を増やすために、過去のバッチ内の出力をMemory bankとして記憶しておき、負例として用います。

図１：NPIDの学習パイプラインの模式図。[1]より引用

　CLにおける基本の損失関数（InfoNCE損失）は、以下のように表されます（表記は幾つかありますが、ここでは理解しやすいMoCo v2[8]のものを記します）。

　式中のはそれぞれ自身・正例・負例の出力特徴量を表します（役割を踏まえ、query、keyと呼ぶこともあります）。内積（cosine類似度）を、正例に対しては大きくし（近づける）、負例に対しては小さくする（遠ざける）損失となっています。正例は自身のオーグメンテーション１つであるのに対し、負例は多数使用するため和をとります。は学習を制御する温度係数です。

　この損失はtriplet lossの拡張として開発されたN-pair loss[2]がベースとなっています。triplet lossでは、自身に似た正例と異なる負例を1つずつ用意し、前者に近づき後者から遠ざかるように学習を行います。CLは負例の数を増やしたtriplet lossとも考えられます。

　CLの学習機構は、”Siamese（双子の） Network”と呼ばれることもあります。図２に示すように、正例ペアを作る際に同じ構造を持つ（手法によっては完全に同一の）ネットワークを並列にした構造を用いるためです。

図２：Siamese Networkを用いたCL手法の比較。[12]より引用

CLの現状

　画像処理分野のトップカンファレンスであるCVPR（Computer Vision and Pattern Recognition）から、論文タイトル中に"Self-Supervised"や"Contrastive"といった単語を含む論文数を数え上げてみました（図３）。ここ数年でこの２つのキーワードが頻出するようになっており、やはり注目を集めていることが分かります。

図３：CVPR2018～2022で該当単語をタイトルに１つ以上含む論文数の推移（弊社調べ）

　下に示すのは、Ce Zhou et al.による”A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT”[3]という、自然言語処理を含む様々なタスクにおける自己教師あり事前学習に関するレビュー論文から引用した、画像における事前学習の主要論文のまとめです（図４）。

図４：画像における自己教師あり学習の主要論文のまとめ。[3]より引用

　CLが流行する以前の自己教師あり学習は、画像を等分し並べ替えるようなタスクや、出力特徴量のクラスタリングとクラスタへの分類を交互に解くようなタスク等、様々な手法が模索されていました。CLは既存の他の手法に大きく勝る精度を残した事で、2020年から大流行しました（"Pretext Task"の列が"discrimination"の手法）。2022年はTransformer専用のマスク部分再構成の手法（"Pretext Task"の列が"reconstruction"の手法、MAE[4]等）が開発され、発展をしています。

　最近ではTransformer専用のCLも開発され、マスク部分再構成の手法と比較しても優れた性能を残しています（Mugs[5]等、Papers With Code [6]にて2023年4月現在Rank 2）。本稿では、CNNかTransformerかという特徴抽出器のアーキテクチャに依存しないCLに焦点を当てて紹介をします。

CLの分類

　CLが流行するきっかけになったのは、2020年に発表されたMoCo v1[7]およびSimCLR[10]の論文です。これらの手法は単純な機構で、条件によっては教師あり学習にかなり近い精度を達成したため、一躍話題になりました。その後、これらの手法をベースに、理論的裏付けを検証しつつ精度を向上させる工夫を取り入れた論文が流行し始めたという流れが見られます。

　複数の論文を調査する中で、その改善や工夫の方向性に傾向が見えてきましたので、4つのカテゴリに分類して論文をまとめてみました。手法名と、それぞれについての大まかな説明を列挙しています。

１．Collapse（崩壊）せず学習に成功する機構の提案

　CLの学習を成功させるための基本的な機構を提案している論文です。後発の論文でもこれらの論文をベースに改善が行われることが多いです。

　ところで、CLの学習には全データに対し全く同じ特徴量を出力させるようになる局所解があり、これに陥ると学習が上手くいかなくなります。Collapse（崩壊）と呼ばれるこの現象は各論文でも良く取り上げられ、SimSiam[12]の論文では主題として論じられています。このカテゴリの手法たちは、単なる精度向上だけでなくCollapseを避けるための機構を提案する側面も強いと考えられます。

MoCo v1[7]（2020, CVPR）
- Memory bankに追加される負例の一貫性を高めるため、Momentum encoderというメインの特徴抽出器の重みを徐々にコピーする機構を導入した教師生徒機構を提案。
  MoCo v2[8]（2020）、MoCo v3[9]（2021, ICCV）の更新点
  - v2はSimCLRの工夫（投影用全結合層、オーグメンテーションの組み合わせ）を導入。v3は主にTransformerに対する性能を調査した論文で、Memory bankを廃止、教師のみpredictorを持つ非対称構造を導入。
SimCLR[10]（2020, ICML）
- Memory bankやアーキテクチャ変更が不要のシンプルな機構で高精度なCLを実現すべく、バッチサイズの増大による負例数の増加、最終段に投影用全結合層の導入、最適なオーグメンテーションの組み合わせを検討。
BYOL[11]（2020, NeurIPS）
- 生徒モデルを勾配計算に用いないstop-gradient、教師のみpredictorを持つ非対称な構造を提案し、負例を使わず正例のみで学習可能なCLの機構を提案。
SimSiam[12]（2021, CVPR）
- CLにおけるCollapseの条件について調査し、BYOLでMomentum Encoderを使わずともstop-gradientのみ残せばCLの学習に成功することを確認。
DINO[13]（2021, ICCV）
- Momentum encoder、stop-gradientに、出力特徴量のシャープニングと中央寄せ（それまでの平均値で減算）の処理を加えた構造のCLでCollapseを回避でき、ResNetやVision Transformer（ViT）で高性能であることを確認。
Barlow Twins[14]（2021, ICML）
- 負例、Memory bank、教師生徒機構、stop-gradientを使用しないシンプルな機構で、正例のバッチ方向に対する相互相関行列を単位行列に近づけるような損失関数で学習するCLを提案。
Self-Classifier[15]（2022, ECCV）
- Barlow Twinsと同じくシンプルな機構を目指し、正例ペアの特徴量がの各次元がソフトクラスを表すとみなし、分類問題としてクロスエントロピー損失で学習。Collapseを避けるために一様事前分布で制約した形に損失を修正。

※ 負例を用いないCLにおけるMomentum Encoderの意義

　BYOL等の負例を使用しないCLでのMomentum Encoderは、MoCoの開発時点での目的である一貫性の確保には不要です。しかしながら、DINO論文[13]では、モデルの過去の状態を用いたPolyak-Ruppert平均によるアンサンブルにより教師側の性能を上げることができるため、Momentum EncoderがCLの性能向上に寄与しているのだと考察しています。

２．正例・負例の改善

　これより下は、主に精度改善や汎化を目的とした論文になります。このカテゴリでは、正例や負例に改善を加えることで到達精度を向上を図った論文について、改善の方向性ごとに分けて列挙します。

オーグメンテーションの改善

　SimCLRでもCLに対するより良いオーグメンテーションの組み合わせが考察されていますが、定性的な考察によってさらに良いオーグメンテーションを提案した論文です。

InfoMin[16]（2020, NeurIPS）
- CLはオーグメンテーション前後の画像間の相互情報量が高過ぎず低すぎない丁度いい時に精度が上がると仮説を立て、それを満たすようなオーグメンテーション戦略を提案。
  図５：InfoMinの仮説を説明した図（著者のHP [17]より引用）
  
  （注釈）２枚の正例ペアの情報が似すぎても（左）違い過ぎても（右）効果は低く、中間が一番良い学習になるとしている。
C-Crop[18]（2022, CVPR）
- オーグメンテーションにおけるクロップの工夫。物体を大きく映すため最終出力ヒートマップの値の高い範囲に限定し、ペアの領域が被らないようにクロップ中心位置が画像端になりやすくする工夫を取り入れたContrastive-Cropを開発。CLでRandom Cropよりも高精度。

正例負例の特徴量を改善

　特徴抽出器から出力された正例と負例の特徴量を改善し、精度向上を図る工夫です。一般的なCLは入力画像をオーグメンテーションして比較し学習しますが、それに加え、以下の手法は出力の特徴量もわずかに変化させてから比較して学習するため、「特徴量空間上でのオーグメンテーション」と捉えることもできます。

AdCo[19]（CVPR, 2021）
- 損失の勾配を用いた敵対性学習により、Memory bank内の負例を難しくする方向に更新。
CaCo[20]（2022）
- AdCoに加え、正例については損失の勾配を用いて簡単にする方向に更新することで精度改善。
FT（Feature Transformation）[21]（2021, ICCV）
- 正例はペアとの外挿で更新し離す。負例はMemory bank内でランダムなペアと内挿して更新して多様化させる。
※ CaCoとFTそれぞれの論文で、正例について難しくする（離す）方向、簡単にする（近づける）方向の両方を検証し、逆の結果になっているのが興味深い点です。

「自身以外全て負例」によるFalse Positiveの問題に対処

　一般的なCLでは自身のオーグメンテーションのみを正例と扱うため、例えば同じクラスの別の画像は負例として遠ざける方向の学習を行ってしまいます。この部分に問題意識を持ち、正例の選び方を修正した論文です。

NNCLR[22]（2021, ICCV）
- 正例として、自身のオーグメンテーションの代わりにMemory bankで一番近いものを使用。
ReSSL[23]（2021, NeurIPS）
- 正例はMemory bannkから類似したものを選ぶ。学習途中から負例の使用を辞める。Memory bankに追加する正例の一貫性を確保するため、弱いオーグメンテーションを用いる。
ASCL[24]（2022, ICPR）
- Memory bank内のうちcosine類似度の高いものを、類似度を重みとしたソフトな正例として使用。

出力特徴量をクラスタリングしてから利用

　一般的なCLでは、個々の画像を負例として使用するため、より汎用的な特徴を学習するには、バッチサイズを増大するかMemory bankを使用するなどの工夫が必要になります。また、上述したように正例のFalse Positiveの問題があります。

　この問題を解決するために、出力特徴量をクラスタリングし、学習が進むごとにクラスタの代表値を徐々に更新することで、それをデータ全体の代表値と見なして正例・負例に用いるCLが提唱されています。

SwAV[25]（2020, NeurIPS）
- ランダムな初期値の「プロトタイプ」（出力特徴量と同じ次元のベクトル）を任意の数用意しておき、各出力特徴量をそれぞれ近いプロトタイプに割り振り（クラスタリング）、そのプロトタイプでCLの損失を計算。割り振りの際には特定のクラスへの集中を防ぐため、一様事前分布を仮定。
PCL[26]（2021, ICLR）
- 出力特徴量をK-meansでクラスタリングし、重心に近づく（or離れる）ような損失を設定。複数のKの値を用いて平均の重心を使用。
SMOG[27]（2022, ECCV）
- グループの重心同士ではなく、グループ代表値と個々の値で損失を計算。グループの代表値はmomentumで徐々に更新する。

３．損失項の改善

　損失関数に変更を加え精度改善を図った論文です。

C-BYOL、C-SimCLR[28]（2021, NeurIPS）
- 冗長な情報の圧縮を目的とする条件付エントロピーボトルネック（Conditional Entropy Bottleneck; CEB[37]）に基づき、出力特徴量そのものではなく、そこから生成したvon Mises-Fisher分布からサンプリングして損失を計算。
ReLIC v2[29]（2022）
- 因果論的解釈に起因する正例のオーグメンテーション前後のKL距離の損失項を加え、先行研究で精度の高かったオーグメンテーションの工夫を取り入れた結果、ImageNetの線形分類で教師あり学習を超えた性能を達成。

４．領域に注目したCL

　多くのCLの論文では、ImageNetに対する線形分類で先行研究と性能比較されることが多いです。しかしその性能は、異なるデータセットや下流タスクへの性能の良し悪しとは必ずしも一致しないことが知られています（論文[30]とその解説記事 [31]を参照）。特に物体検出や領域分類といった「密な（Dense）」タスクに対する性能との乖離は大きくなっています。また、物体中心（ImageNet, COCO等）ではなくシーン中心（CityScapes等）なデータに対し、画像１枚ずつを比較するというCLのコンセプトが有効であるかは直観的にも懸念があります。

　上記の問題を解決するため、画像１枚単位ではなく、画像中の領域単位（特徴抽出器の最終段の画素単位）の特徴量同士でCLを行う手法が開発されています。DenseCLの論文がその出発点です。

DenseCL[32]（2021, CVPR）
- 最終段の投影用の全結合層を１ｘ１畳み込み層に置き換えることで、空間情報を残した領域ごとの出力特徴量によるCLを提案。
PixPro[33]（2021, CVPR）
- 近くの似た画素との滑らかさも学習すべく、他の画素の特徴量とcosine類似度で重みづけ平均したCL。
SlotCon[34]（2022, NeurIPS）
- 画素の特徴量をランダムな初期値で用意されたプロトタイプに割り振り、プロトタイプごとのCL（教師と生徒で同じ番号のプロトタイプは近づけ、それ以外は離す）と、プロトタイプへの分類（教師と生徒で同じ番号のプロトタイプに分類）の２種類の損失で学習。
RegionCL[35]（2022, ECCV）
- クロップした画像を他の画像に貼り付け、元画像領域と貼り付け領域で区別してCL損失に組み込み。
DenseSiam[36]（2022, ECCV）
- SimSiamの構造で領域単位・画素単位のCL損失を計算。

おわりに

　近年流行の自己教師あり学習の一つの潮流であるContrastive Learningについて、主だった論文をその概要から系統的にまとめてみました。本稿では個々の論文の詳細については省略しておりますので、気になった点についてはソース元をご覧いただけると幸いです。

出展

[1] Wu, Z., Xiong, Y., Yu, S. X., & Lin, D. (2018). Unsupervised feature learning via non-parametric instance discrimination. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3733-3742). Available: https://openaccess.thecvf.com/content_cvpr_2018/papers/Wu_Unsupervised_Feature_Learning_CVPR_2018_paper.pdf

[2] Sohn, K. (2016). Improved deep metric learning with multi-class N-pair loss objective. Advances in neural information processing systems, 29. Available: https://papers.nips.cc/paper/2016/file/6b180037abbebea991d8b1232f8a8ca9-Paper.pdf

[3] Zhou, C., Li, Q., Li, C., Yu, J., Liu, Y., Wang, G., Zhang L., Ji, C., Yan, Q., He, L., Peng, H., Li, J., Wu, J., Liu, Z., Xie, P., Xiong, C., Pei, J., Yu, P. & Sun, L. (2023). A comprehensive survey on pretrained foundation models: A history from BERT to ChatGPT. arXiv preprint arXiv:2302.09419. Available: https://arxiv.org/pdf/2302.09419.pdf

[4] He, K., Chen, X., Xie, S., Li, Y., Dollár, P., & Girshick, R. (2022). Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16000-16009). Available: https://openaccess.thecvf.com/content/CVPR2022/papers/He_Masked_Autoencoders_Are_Scalable_Vision_Learners_CVPR_2022_paper.pdf

[5] Zhou, P., Zhou, Y., Si, C., Yu, W., Ng, T. K., & Yan, S. (2022). Mugs: A multi-granular self-supervised learning framework. arXiv preprint arXiv:2203.14415. Available: https://arxiv.org/pdf/2203.14415.pdf

[6] "Self-Supervised Image Classification on ImageNet" in Paper With Code. Available: https://paperswithcode.com/sota/self-supervised-image-classification-on

[7] He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). Momentum contrast for unsupervised visual representation learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 9729-9738). Available: https://openaccess.thecvf.com/content_CVPR_2020/papers/He_Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning_CVPR_2020_paper.pdf

[8] Chen, X., Fan, H., Girshick, R., & He, K. (2020). Improved baselines with momentum contrastive learning. arXiv preprint arXiv:2003.04297. Available: https://arxiv.org/pdf/2003.04297.pdf

[9] Chen, X., Xie, S., & He, K. (2021). An empirical study of training self-supervised vision transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 9640-9649). Available: https://openaccess.thecvf.com/content/ICCV2021/papers/Chen_An_Empirical_Study_of_Training_Self-Supervised_Vision_Transformers_ICCV_2021_paper.pdf

[10] Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020, November). A simple framework for contrastive learning of visual representations. In International conference on machine learning (pp. 1597-1607). PMLR. Available: http://proceedings.mlr.press/v119/chen20j/chen20j.pdf

[11] Grill, J. B., Strub, F., Altché, F., Tallec, C., Richemond, P., Buchatskaya, E., Doersch, C., Pires, B. A., Guo, Z. D., Azar, M. G., Piot, B., Kavukcuoglu, K., Munos, R. & Valko, M. (2020). Bootstrap your own latent-a new approach to self-supervised learning. Advances in neural information processing systems, 33, 21271-21284. Available: https://proceedings.neurips.cc/paper/2020/file/f3ada80d5c4ee70142b17b8192b2958e-Paper.pdf

[12] Chen, X., & He, K. (2021). Exploring simple siamese representation learning. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 15750-15758). Available: https://openaccess.thecvf.com/content/CVPR2021/papers/Chen_Exploring_Simple_Siamese_Representation_Learning_CVPR_2021_paper.pdf

[13] Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging properties in self-supervised vision transformers. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 9650-9660). Available: https://openaccess.thecvf.com/content/ICCV2021/papers/Caron_Emerging_Properties_in_Self-Supervised_Vision_Transformers_ICCV_2021_paper.pdf

[14] Zbontar, J., Jing, L., Misra, I., LeCun, Y., & Deny, S. (2021, July). Barlow twins: Self-supervised learning via redundancy reduction. In International Conference on Machine Learning (pp. 12310-12320). PMLR. Available: http://proceedings.mlr.press/v139/zbontar21a/zbontar21a.pdf

[15] Amrani, E., Karlinsky, L., & Bronstein, A. (2022, October). Self-supervised classification network. In Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXXI (pp. 116-132). Cham: Springer Nature Switzerland. Available: https://arxiv.org/pdf/2103.10994.pdf

[16] Tian, Y., Sun, C., Poole, B., Krishnan, D., Schmid, C., & Isola, P. (2020). What makes for good views for contrastive learning?. Advances in neural information processing systems, 33, 6827-6839. Available: https://proceedings.neurips.cc/paper/2020/file/4c2e5eaae9152079b9e95845750bb9ab-Paper.pdf

[17] Google Research Blog, Posted by Yonglong Tian, Student Researcher and Chen Sun, Staff Research Scientist, Google Research, on FRIDAY, AUGUST 21, 2020. Available: https://ai.googleblog.com/2020/08/understanding-view-selection-for.html

[18] Peng, X., Wang, K., Zhu, Z., Wang, M., & You, Y. (2022). Crafting better contrastive views for siamese representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16031-16040). Available: https://openaccess.thecvf.com/content/CVPR2022/papers/Peng_Crafting_Better_Contrastive_Views_for_Siamese_Representation_Learning_CVPR_2022_paper.pdf

[19] Hu, Q., Wang, X., Hu, W., & Qi, G. J. (2021). Adco: Adversarial contrast for efficient learning of unsupervised representations from self-trained negative adversaries. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1074-1083). Available: https://openaccess.thecvf.com/content/CVPR2021/papers/Hu_AdCo_Adversarial_Contrast_for_Efficient_Learning_of_Unsupervised_Representations_From_CVPR_2021_paper.pdf

[20] Wang, X., Huang, Y., Zeng, D., & Qi, G. J. (2022). Caco: Both positive and negative samples are directly learnable via cooperative-adversarial contrastive learning. arXiv preprint arXiv:2203.14370. Available: https://arxiv.org/pdf/2203.14370

[21] Zhu, R., Zhao, B., Liu, J., Sun, Z., & Chen, C. W. (2021). Improving contrastive learning by visualizing feature transformation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 10306-10315). Available: https://openaccess.thecvf.com/content/ICCV2021/papers/Zhu_Improving_Contrastive_Learning_by_Visualizing_Feature_Transformation_ICCV_2021_paper.pdf

[22] Dwibedi, D., Aytar, Y., Tompson, J., Sermanet, P., & Zisserman, A. (2021). With a little help from my friends: Nearest-neighbor contrastive learning of visual representations. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 9588-9597). Available: https://openaccess.thecvf.com/content/ICCV2021/papers/Dwibedi_With_a_Little_Help_From_My_Friends_Nearest-Neighbor_Contrastive_Learning_ICCV_2021_paper.pdf

[23] Zheng, M., You, S., Wang, F., Qian, C., Zhang, C., Wang, X., & Xu, C. (2021). Ressl: Relational self-supervised learning with weak augmentation. Advances in Neural Information Processing Systems, 34, 2543-2555. Available: https://proceedings.neurips.cc/paper/2021/file/14c4f36143b4b09cbc320d7c95a50ee7-Paper.pdf

[24] Feng, C., & Patras, I. (2022, August). Adaptive Soft Contrastive Learning. In 2022 26th International Conference on Pattern Recognition (ICPR) (pp. 2721-2727). IEEE. Available: https://arxiv.org/pdf/2207.11163.pdf

[25] Caron, M., Misra, I., Mairal, J., Goyal, P., Bojanowski, P., & Joulin, A. (2020). Unsupervised learning of visual features by contrasting cluster assignments. Advances in neural information processing systems, 33, 9912-9924. Available: https://proceedings.neurips.cc/paper/2020/file/70feb62b69f16e0238f741fab228fec2-Paper.pdf

[26] Li, J., Zhou, P., Xiong, C., & Hoi, S. C. (2020). Prototypical contrastive learning of unsupervised representations. arXiv preprint arXiv:2005.04966. Available: https://arxiv.org/pdf/2005.04966.pdf

[27] Pang, B., Zhang, Y., Li, Y., Cai, J., & Lu, C. (2022, November). Unsupervised Visual Representation Learning by Synchronous Momentum Grouping. In Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXX (pp. 265-282). Cham: Springer Nature Switzerland. Available: https://arxiv.org/pdf/2207.06167.pdf

[28] Lee, K. H., Arnab, A., Guadarrama, S., Canny, J., & Fischer, I. (2021). Compressive visual representations. Advances in Neural Information Processing Systems, 34, 19538-19552. Available: https://proceedings.neurips.cc/paper/2021/file/a29a5ba2cb7bdeabba22de8c83321b46-Paper.pdf

[29] Tomasev, N., Bica, I., McWilliams, B., Buesing, L., Pascanu, R., Blundell, C., & Mitrovic, J. (2022). Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?. arXiv preprint arXiv:2201.05119. Available: https://arxiv.org/pdf/2201.05119

[30] Ericsson, L., Gouk, H., & Hospedales, T. M. (2021). How well do self-supervised models transfer?. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 5414-5423). Available: https://openaccess.thecvf.com/content/CVPR2021/papers/Ericsson_How_Well_Do_Self-Supervised_Models_Transfer_CVPR_2021_paper.pdf

[31] AI-SCHOLAR, 2021年11月09日, "Self-Supervisedモデルは下流タスクでどれだけ成功するか？" Available: https://ai-scholar.tech/articles/self-supervised-learning/SSLModels

[32] Wang, X., Zhang, R., Shen, C., Kong, T., & Li, L. (2021). Dense contrastive learning for self-supervised visual pre-training. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3024-3033). Available: https://openaccess.thecvf.com/content/CVPR2021/papers/Wang_Dense_Contrastive_Learning_for_Self-Supervised_Visual_Pre-Training_CVPR_2021_paper.pdf

[33] Xie, Z., Lin, Y., Zhang, Z., Cao, Y., Lin, S., & Hu, H. (2021). Propagate yourself: Exploring pixel-level consistency for unsupervised visual representation learning. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 16684-16693). Available: https://openaccess.thecvf.com/content/CVPR2021/papers/Xie_Propagate_Yourself_Exploring_Pixel-Level_Consistency_for_Unsupervised_Visual_Representation_Learning_CVPR_2021_paper.pdf

[34] Wen, X., Zhao, B., Zheng, A., Zhang, X., & Qi, X. (2022). Self-supervised visual representation learning with semantic grouping. arXiv preprint arXiv:2205.15288. Available: https://arxiv.org/pdf/2205.15288.pdf

[35] Xu, Y., Zhang, Q., Zhang, J., & Tao, D. (2022, November). RegionCL: Exploring Contrastive Region Pairs for Self-supervised Representation Learning. In Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXXIII (pp. 477-494). Cham: Springer Nature Switzerland. Available: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136930468.pdf

[36] Zhang, W., Pang, J., Chen, K., & Loy, C. C. (2022, November). Dense Siamese Network for Dense Unsupervised Learning. In Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXX (pp. 464-480). Cham: Springer Nature Switzerland. Available: https://arxiv.org/pdf/2203.11075.pdf

[37] Fischer, I. (2020). The conditional entropy bottleneck. Entropy, 22(9), 999. Available: https://www.mdpi.com/1099-4300/22/9/999

実務訓練 2022：ネイル画像生成アプリケーションの作成

2023-04-24T11:00:07+09:00

　本記事は、2022年度の実務訓練で勤務した高橋快斗さんによる寄稿です。

はじめに

　はじめまして。2023年の1月から2月にかけて株式会社モルフォで実務訓練を行っていた豊橋技術科学大学の高橋です。本実務訓練では、昨今話題のText-to-Image技術を応用したネイル画像生成アプリケーションを作成しました。このアプリケーションでは、ユーザーがネイルデザインを指定することで、自動的に画像を生成することができます。

生成画像

　早速ですが、生成されたネイル画像は図1になります。

図1 生成画像例

　流行のデザインのネイル画像が生成できていることが確認できます。更に、複数のデザインの特徴を併せ持った世界初のデザインのネイル画像も生成することができます。

図2 複数のデザインを内包した生成画像の例

　下記では実務訓練で取り組んだ、このような画像を生成するアプリケーションの作成の過程を記載します。是非ご覧ください。

テーマ決め

　昨今、深層学習を利用した画像生成が流行しております。具体的には、アニメ風の画像生成*1やパッケージデザイン*2やホイールデザインの画像生成*3などが実用化に至っております。今回は、他に需要が見込まれる分野について調査した結果、まだ実用化されていないおしゃれなネイル画像の生成にテーマを設定しました。

図3 テーマ

Stable Diffusion

　今回は学習済Stable Diffusion*4を画像生成モデルのベースとして用い、ネイル画像データによるファインチューニングを行いました。このモデルを端的に言いますと、テキスト（プロンプト、文章）から画像を生成するモデルです。ここではモデルの詳細な説明は割愛します。

データセット作成

　ファインチューニングには、画像とキャプションのペアのデータセットが必要です。そこで今回は、画像収集、テキスト認識、テキスト削除、キャプション付与の過程を経てデータセットを作成しました。

1. 画像収集

　今回は、googleのCustom Search APIを用いて画像を収集しました。このAPIを用いると、任意の用語を指定することでグーグル検索結果で得られる数百枚の画像を得ることができます。検索したデザインの種類数は113枚、総画像枚数は4842枚です。検索用語としては、「クリスマスネイル」「フレンチネイル」のように流行のネイルデザインの名前を入れました。その後、低解像度の画像の除去をしました。

2. テキスト認識

　画像内に文字が含まれているデータセットでファインチューニングを行うと、生成画像内に文字が生成されるという不都合が生じた為、テキスト削除を行いました。テキストを削除するために、テキストをEasyOCR*5で認識しました。

3. テキスト削除

　テキスト認識結果を元に、マスク画像を生成し、MAT*6を用いてテキストを削除しました。

4. キャプション付与

　BLIP*7を用いて全ての画像それぞれに対して、キャプションを生成しました。さらに、新たなネイルデザインの概念を学習させる意図で、キャプションの末尾に検索クエリを追記しました。

図4 キャプション付与の例

学習結果

　上記で作成したデータセットでファインチューニングを行ったモデルにて生成した画像例が図5になります。

図5 生成画像によるファインチューニングの効果比較

　複数のデザインの特徴を併せ持つネイルの画像も生成することが可能となっております。

図6 複数のデザインの特徴を併せ持つネイルの生成画像の例

　想定通り、学習画像内からテキストを削除することで、生成画像から余分な文字の出現を抑制することができました。

図7 テキスト削除の結果比較

GUI

　Streamlitを用いてGUIの作成を行いました。チェックボックスにより、デザインの提案及び複数のデザインの選択ができ、テキストボックスによりユーザー独自のデザインの指定ができます。社内での動作試験にあたり、セマフォを用いて生成できるセッション数を制限することでOOM対策をしました。

図8 作成したGUI

まとめ

　２ヶ月という短い期間でしたが、ネイル画像生成アプリケーションの作成ができました。既存のデザインだけでなく、複数のデザインの特徴を併せ持つ世界初のデザインのネイル画像を生成できることができました。

　今後の展望として、生成したネイルデザインの自分の爪への仮想試着や、ControlNet*8などを用いた手や指の生成などがあります。

　最後に、実務訓練を受け入れていただいた株式会社モルフォ及び、ご指導をくださった社員一同に感謝申し上げるとともに、更なる機械学習の発展を望み締め括ります。

　最後までお読みいただき誠にありがとうございます。

参考文献

*1:徳力基彦　2023　動画生成AIやアニメ背景生成AIも登場。過熱する生成系AI開発競争の中で考えるべきこと。 https://news.yahoo.co.jp/byline/tokurikimotohiko/20230212-00336730

*2:株式会社プラグ　2022　商品デザインを評価・生成する「パッケージデザインAI」が「第4回日本サービス大賞」総務大臣賞を受賞　https://prtimes.jp/main/html/rd/p/000000032.000062916.html

*3:GENROQweb編集部　2022「AIがホイールをデザイン？」アウディのデザイン部門が積極的に推し進めるAIによる開発の狙い　https://motor-fan.jp/genroq/article/58334/

*4:Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, BjörnHigh-Resolution Image Synthesis with Latent Diffusion Models CVPR 2022

[2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models

*5:Liao, Minghui and Zou, Zhisheng and Wan, Zhaoyi and Yao, Cong and Bai, XiangReal-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion

[2202.10304] Real-Time Scene Text Detection with Differentiable Binarization and Adaptive Scale Fusion

*6:Li, Wenbo and Lin, Zhe and Zhou, Kun and Qi, Lu and Wang, Yi and Jia, JiayaMAT: Mask-Aware Transformer for Large Hole Image Inpainting CVPR 2022

[2203.15270] MAT: Mask-Aware Transformer for Large Hole Image Inpainting

*7:Li, Junnan and Li, Dongxu and Xiong, Caiming and Hoi, StevenBLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

[2201.12086v2] BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

*8:Lvmin Zhang, Maneesh Agrawala Adding Conditional Control to Text-to-Image Diffusion Models

[2302.05543] Adding Conditional Control to Text-to-Image Diffusion Models

インターンシップ 2022：手と物体のInteractionを検出するWebアプリの開発

2023-01-11T10:02:19+09:00

はじめまして。2022年夏季に株式会社モルフォでインターンをしていた山本です。現在は情報系の大学院でVision-Languageに関する研究を行っています。私のインターンシップでは、画像中の手と物体を検出し、それらの状態を文として出力するWebアプリケーションの開発に取り組みました。

開発のモチベーション

近年の機械学習における学習手法として、大規模なデータセットで学習した学習済みモデルをfine-tuningして使うという方法が挙げられます。fine-tuingの際にはタスクに応じたデータセットを用意する必要がありますが、例えば料理動画からレシピを生成するといったような、ドメインに特化したタスクである場合、データセットにもより詳細なアノテーションを与えなければならない場合があります。そこで、画像または動画像中の手と物体の状態を自動で検出することができれば、人の動作を伴うデータセットに対するrichなアノテーションを自動で行うことができるのではないかと考え、今回の開発に取り組みました。

手と物体とのInteractionを検出するアプリケーションの開発 by @Morpho

インターンシップを終えて

今回のインターンシップではメンターの方をはじめとする社員の方々にサポートを頂きながら、多くの学びを得ることができました。その中でも私が特に重要だと感じたものを２つ共有したいと思います。

一つは、課題定義・手法の検討を疎かにしないことです。私は今回のインターンシップを通して、小規模ながら「課題定義→手法の検討→開発→公開」というサイクルを体験することができました。この一連の流れの中でも、「課題定義→手法の検討」の部分が重要だと感じました。解決すべき課題をしっかりと定義すること、使おうとしている手法が課題に対して必要/十分なのか検討することで、開発以降のサイクルで無駄な工程を産まずに済みます。実際のインターン中でも、手の認識と物体の認識を別々に行うのではなく、両方を一つのモデルで行った方が良いということに気づき、開発を効率的に進めることができました。定義した課題・手法に関するサーベイを念入りに行うことの重要さを再認識することができました。

そしてもう一つは機械学習以外の知識を身につけることです。インターンシップで実際に開発を行う際、使うモデルに必要なライブラリやコンパイラの依存関係に関するエラーでハマってしまうことがあり、それらを解決する際にコンピュータサイエンス（CS）の基礎知識の不足を強く感じました。このようなライブラリ関連の他、速度向上のためにメモリ効率を意識したコードを書く等、CSの基礎知識が必要となる場面は多くあると思います。これから研究・開発を続けるにあたり、機械学習に関する知識だけでなく、CSの知識も拡充していかなければならないと強く感じました。

最後に、今回のインターンシップ参加にあたって、開発の方針やアプリケーションの中身に関して多くのアドバイスやサポートを頂いたモルフォの社員の方々に感謝申し上げます。そして本記事が、これから機械学習に関する研究・開発を行う方々の一助になれば幸いです。

OJT 2022：depth mapを用いた画像のレイヤー分割＋エフェクト

2022-08-09T09:46:19+09:00

　こんにちは。プロダクト開発部の中屋敷です。当社では毎年、新入社員でグループ研修を行います。今年度、私達が研修で作成したのが「画像のレイヤー分割」と「水彩画効果を用いた動画化」システムです。本記事では、このシステムの開発の目的や原理、実現したことについてご紹介いたします。

概要

　皆さんはデジタルで絵を書いたことはありますか？デジタルではアナログと違い、元に戻したりコピーしたりと便利な機能がありますが、その中でも特に重要なのがレイヤー機能です。風景・人・犬といった描写物を別々の透明フィルムに書き込み、それらを重ね合わせることで一枚の絵とするものです。このレイヤー機能により、人のポーズを変えたり位置を動かしたりしても背景を書き換える必要がないため、非常に便利なものとなっています。

　そしてもう一つ、撮った写真を加工することも身近になってきました。文字やスタンプでデコるだけでなく、写りこんだ人を消したり、逆に人を増やしたり。ですが、単に写真の上に追加するだけならともかく、加工をしようとすると途端に難しくなります。（柵の奥に人を追加しようとすると切り抜きが大変ですし、中にはスタイルを良くしようと加工したら背景の人が歪んでしまったなんてケースも・・・）

　そこで私達は、写真を複数のレイヤーに分割できれば様々な加工処理が楽になるのではと考え、これを実現するシステムを開発しました。加えて、この分割結果を用いることで面白いエフェクトも実現しましたのでご紹介します。

レイヤー分割アルゴリズム

　まずレイヤーを分けるための情報として、depth map（写真内の相対距離を表した画像）を用いました。

図1. depth map

　depth mapは当社のMorpho Single Camera Bokeh™を使用することで、１枚の画像から取得することができます。また、これから撮る写真であれば、Morpho Dual Camera Solutions™を使用することで視差情報を用いたより精度の高いdepth mapを取得することもできます。

図2. depth mapを用いたレイヤー分割の流れ

　depth mapを用いたレイヤー分割で最も単純なのは、指定した距離（depth値）より手前か奥かで分割する方法です。ですが、どの値なら適切に分割できるのか、何個に分けるのかを指定するのは手間がかかります。そこで私達は、複数の手法を用いて適切な分割値や分割数を推定する処理を実装しました。

クラスター分析による分割

　まず、depth mapを適切な値で分割するためにクラスター分析を用いました。depth値を1次元データとして扱い、クラスターに分けることで分割depth値を算出しました。また、クラスター分析には様々な手法があるため、複数の手法を実装しました。

クラスター数（レイヤー分割数）を指定して分割する手法
- k-means法(scikit-learn)
- Fuzzy C means法(PyPI)
クラスター数を推定する手法（推定結果をk-means法などに使用）
- elbow法(pyclustering)
クラスター数を推定しつつ分割する手法
- x-means法(pyclustering)
- mean shift法(scikit-learn)

図3. クラスター分析による分割例

多項式回帰を用いたレイヤー分割提案手法（多項式回帰＋）

　クラスター分析とは異なる手法のアルゴリズムも一つ実装しました。基本理論として、depth mapをヒストグラムにすると物体がある付近の値は高く山のようになり、何もない距離は0（谷）に近くなります。そのため谷の位置で分割すれば、きれいな分割結果になるはずです。ですがヒストグラムは非常に凸凹しているため、単に移動平均＋増減チェックでは谷の位置を判定するのは困難です。そこで、このヒストグラムの近似曲線を用いることで、細かな凸凹をなくしつつ、もとのヒストグラムに近い山・谷を表現できると考えました。手法としては、depthマップをヒストグラムにかけ、その結果を多項式回帰分析(scikit-learn)を用いて近似曲線を計算します。その曲線の山となる頂点を算出し、山同士の間で最も値が小さい点を谷として分割点に設定するようにしました。

図4. 多項式回帰を用いたレイヤー分割手法

1次元のレイヤー分割の問題点と解決策

　これまでの手法は1次元データとしてdepth値の分割点を見つけようとしましたが、1次元のみだといくつか課題点がでてきました。

depth値が同じくらいの複数の物体は、同じレイヤーになる
depth値が広い物体は途中で分割されてしまう
中間レイヤーに境界線が表示される
図5. depth値のみの1次元分割の課題点
　これらの課題点を解決するため、3次元クラスター分析および境界線ノイズ除去アルゴリズムを実装しました。

3次元クラスター分析

　3つの課題すべてに対処するため、depth mapの座標も用いた3次元データでのクラスター分析を実装しました。座標による距離情報も用いることで、離れている物体の分割、depth値が多少変わっても物体は分割されない、境界線は周辺のクラスターにまとめられる、という3つの効果を期待しました。

図6. 1・3次元クラスター分割の比較

　分割結果をみますと、1次元ではいくつに分割しても被写体の二人は同じレイヤーになりましたが、3次元分割を用いると見事一人一人別のレイヤーに分離することができました。ただ一方で、3次元分割では背景のような広い範囲が写っている領域はパズルのピースのように分割されてしまうという欠点も見られ、有効的なケースが限られることが判明しました。

境界線のノイズ除去

　続いて1次元分析で生じる境界線ノイズを除去する処理を追加しました。図7に示すように、中間となるレイヤーから境界線ノイズと思われるピクセルを抽出し、それらのピクセルを近いレイヤー（周辺で最も大きい領域のレイヤー）に移動させました。そのように補正した分割結果を使い写真をレイヤー分割することで、図5で見られた境界線ノイズを削減しました。

図7. 境界線ノイズ除去

レイヤー分割の評価

　今回のシステムではいくつもの分割手法を実装したため、各手法について「処理時間・再現性・分割結果」の3項目で性能評価を行いました。評価対象は紹介した各手法（1次元分析）と、3次元クラスター分析をk-means法に適応したものを比較しました。

処理時間

各アルゴリズムの処理時間を評価しました。処理時間は、CPUのシングルスレッドで動作させ、14回実行したうちの上位7回を平均して算出しました。
グラフ1. 各アルゴリズムの処理時間
グラフは横軸が速度評価に用いたdepth mapで、縦軸が処理時間（ms）を対数表記しています。

まず一番目につく結果として、多項式回帰＋が他の手法の100〜1000倍速い結果となりました。理由としては、どれだけ大きなdepth mapであってもヒストグラム化して256個のデータ（depth値の幅）にしたものを解析に用いるため、高速化が実現できています。次に早いのはk-means法で、3次元にするとデータ量は3倍に増えるものの、大幅な増加は見られませんでした。mean shiftやx-means法は探索が必要なため、k-means法の10倍ほどの時間がかかってしまっています。Fuzzy C means法は分割数を指定する手法ですが、k-means法よりも10倍ほどの時間がかかっています。

処理時間の全体の傾向としては、分割数や画像によらずサイズに比例するような傾向がみられますが、Fuzzy C means法のみ画像の内容により処理時間が大きく変わることが確認できました。

なお、elbow法についてはk-means法を指定回数繰り返して最も良い分割数を探す手法であり、処理時間≒k-means法の時間×指定回数という単純な計算となるため、グラフから除外しています。
再現性

続いて再現性の評価です。クラスター分析手法では開始時のクラスター中心点などをランダムに設定するため、同じ画像であっても最適化によるクラスタリング結果が異なる可能性があります。そのため、画像ごとに複数回実行した結果（分割数・分割depth値・最適化後のクラスターの中心点）の一致率を算出し、それらから高中低の３段階で評価しました。基本的には再現性は高いほうが良いですが、一方で適切ではない分割結果だった場合それに固定されてしまうという意味でもあるため、再現性は低くても悪いとは言い切れないと考えています。

評価の結果、Fuzzy C means法とmean shift法は平均的に90%以上の一致率であり、クラスター分析の中では再現性が高くなっていました。一方、三次元のk-means法は次元数が多いためか、特に背景などの広い範囲の分割が実行毎に変わることが多く、再現性は低い評価となりました。それ以外のクラスター分析は、画像によりますが80~90%程度の一致率であり、大きな違いは見られませんでした。なお、多項式回帰＋は計算による算出のため、一致率は100%でした。
分割結果

最後に分割結果の評価になります。分割結果は、人・物体・背景が分離できているかを評価しました。本来なら理想的な分割結果を用意してその差分から判定したいところなのですが、時間的な制約もあり、今回は目視・主観による評価を行いました。
図8. 分割結果の評価例（類似結果のものはまとめて記載）

図8のように同じ画像の分割結果を見比べて判定を行いました。この画像結果ですと、k-means法とFuzzy C means法がきれいな結果となっていますが、それ以外の手法は悪い結果となっています。ただし、画像によっては逆の評価になることもありますので、総合的な判断を後述の表1に記載しました。

分割評価の結論

表1. レイヤー分割アルゴリズム評価

　速度については多項式回帰＋が非常に速く、次点でk-means法となりました。再現性は多項式回帰＋, Fuzzy C means法, mean shift法が安定して同じ結果が出力されています。そして最も画像の分割結果がきれいなものはFuzzy C means法で、次点でk-means法となりました。これらの結論から、用途ごとのおすすめは下記になります。

速度重視：多項式回帰＋
性能重視：Fuzzy C means法
バランス（指定）：k-means法
バランス（推定）：mean shift法

レイヤー分割を応用したエフェクト

　ここからは、レイヤー分割を応用したエフェクトについてご説明します。まず、レイヤー分割結果を活用する最も分かりやすい用途が画像合成です。分割したレイヤーは透過画像で出力できるため、ペイントツールなどを使って分割したレイヤー間に画像を挿入したり、サイズなどを変えて他の画像に合成したりすることができます。

図9. レイヤー分割の結果を組み合わせた画像合成

　ただ、この画像も柵が一部途切れているなどdepth値による分割は課題点も多く、残念ながら合成となると違和感を覚えてしまうケースが少なからずありました。そこで純粋に分割した画像を使うのではなく、さらにここから加工を加えることで、違和感を軽減しつつ面白いエフェクトを実装しました。

エフェクトのための基盤機能

　実装したエフェクトの紹介の前に、エフェクトを実現するにあたって必要となる機能を2つご説明します。

図10. エフェクトの基盤機能

Inpainting

　OpenCVのinpainting機能を使って、レイヤー分割で生じた空白領域を埋めることができます。基本は近郊の画素値を使用するため、広い範囲を埋めたり分割が綺麗にできていないと不自然になってしまいますが、そのままの空白状態よりは目立ちにくくなります。

水彩フィルター

　近郊ピクセルの中で最も色の数値が高いピクセルの色にすることで、写真を水彩画で描いたような画像に変換するフィルターを作成しました。このとき、範囲や強度を変化させることで、水彩効果の強弱を変えることができます。この水彩フィルターをかけることで、レイヤー分割やinpaintingの違和感を軽減できます。

　この二つの機能と、レイヤー分割、レイヤーのリサイズなどを組み合わせることで、いくつかの動画エフェクトを作成いたしました。

水彩画効果を用いた動画エフェクト

背景水彩化動画

まず一つ目、背景が少しずつ水彩風になっていく動画です。
図11. 背景水彩化動画 (使用写真：”GAHAG”より)
こちらは２分割した画像のうち、背景のレイヤーに対して水彩効果をかけ、フレームごとに水彩効果を強めていくことで実現しています。背景がボケていく画像とはまた違った雰囲気の動画になりますが、予想外の効果として波が動いているようにも見えますので、水彩効果の強度を前後させると疑似的なgif動画にできるかもしれません。
水彩画作成動画

続いて写真の風景を水彩画で描いていく風の動画です。
図12. 水彩画作成動画
こちらは最初に空白領域にinpaintingをかけ水彩効果を強めに加えた遠景レイヤーを表示し、だんだんと近景レイヤーを重ね、かつ水彩効果を弱めていくことで実現しました。背景だけの絵から、少しずつ物が書き込まれていくように見えます。レイヤー分割数を増やすほど、一回の書き込み量が少なくなるので、より丁寧な動画になります。
背景Drifting

最後に、人は動いていないのに背景が進んでいるかのような不思議な感覚になる動画です。通常は動画から作成される、ドリーズームと呼ばれる演出を写真から実現しました。

図13. 背景Drifting（左：水彩効果なし、右：あり）

原理としては、inpaintingで補完した背景レイヤーを中心を基準に拡大させることで実現しています。こちらは境界線がどうしても目立ちやすいのとズームにより背景のinpainting部分が見えて違和感を覚えやすいのですが、水彩効果を加えることでこれらを目立たなくすることができます。

まとめ

　本グループ研修では、depth mapを用いることで写真を複数のレイヤーに分割し、またその分割結果を元に一風変わったエフェクトの開発に取り組みました。この開発では、アイディア出しから要件定義、開発、テスト、評価までの一連の経験をつむことができました。レイヤー分割自体は比較的直ぐにできましたが、やはり理想通りに分けるとなると難しく、まだまだ課題点が残っています。一方で、その精度でも違和感を覚えないように水彩フィルターを加えるという発想が出てくるなど、とても刺激になる開発経験となりました。この開発経験を今後の業務に活かしていきたいと思います。

　また、アルゴリズムの改善、別のクラスターアルゴリズムを試す、マルチスレッドやGPUを使った高速化、そして新しいエフェクトの追加など、まだまだ改善の余地はありますので、業務を通じて得たスキルで少しずつ改良し、自信をもって人に勧められるシステムにできたらなと思ってます。

　以上、本記事を読んでくださりありがとうございました。

HiPPO/S4解説

2022-05-24T10:26:48+09:00

こんにちは、CTO室リサーチャーの角田です。

社内では毎週金曜日に持ち回りで論文紹介を行うjournal clubという活動を行っております。そちらで私が発表した以下３本の論文

HiPPO: Recurrent Memory with Optimal Polynomial Projections (NeurIPS 2020 Spotlight)
Combining Recurrent, Convolutional, and Continuous-time Models with the Linear State Space Layer (NeurIPS 2021)
Efficiently Modeling Long Sequences with Structured State Spaces (ICLR 2022 Oral)

について、内容が非常に優れていると判断した＆詳細な日本語解説がほとんど存在しないことから、このブログにて外部公開することを決めました。

内容としては時系列モデリングについてですが、LSTMやTransformerとは全く切り口の異なる手法で、厳密な理論展開を踏まえてモデルを構成しSOTA性能をたたき出した素晴らしい論文です。

近年のディープラーニング系論文においては、ふんわりとした気持ちでモデルを作ってとにかく精度向上が見られたことでアイデアを正当化するケースが多いですが、ボトムアップに理論構成して狙った通りに圧倒的精度を出している点で、この論文群は非常に稀有な存在だと認識しています。

もし同様の論文を読もうとされている方がいらっしゃれば、このスライドが助けになれば幸いです。また識者の方におきましては内容の誤り等ありましたら指摘いただけますと大変参考になります。

HiPPO/S4解説 by @Morpho

CVPR 2021 参加報告

2022-02-02T09:59:51+09:00

　こんにちは、2021年4月に入社したCTO室リサーチャーの名古屋です。

　私たちが働く株式会社モルフォでは毎年、国内外を問わず画像処理・機械学習の学会や国際会議に積極的に参加しています。今回は私ともう2名の社内リサーチャーとで、6月19～25日に開催した「CVPR 2021」に参加してきました。

　この記事では、CVPRの概要と、個人的に気になった研究を3つピックアップして紹介します。

CVPR 2021 の概要

　CVPR (Computer Vision and Pattern Recognition) とは、コンピュータビジョンとパターン認識の分野における世界トップレベルの学会です。毎年非常に多くの論文が集まっており、その数は毎年のように増え続けています。今年は7000本の論文の中から1700本が採択されました (採択率23%) [1]。通常はアメリカ国内で開催されていますが、新型コロナウイルスの影響で去年からリモート参加によるバーチャル開催となっています。

CVPR 2021 の様子

　参加者 (聴講者) は開催前日から特設サイトにログインすることができ、そこでは各論文のポスターや事前に録画された講演動画を見ることができます。ポスターは非常に簡潔にまとまっているものが多く、論文の概要を把握するのに便利です。特設サイトは大会終了後3ヶ月間は入ることができます。

　開催期間中はセッション時間が設けられていて、その時間内で発表者に質疑応答をします。質疑応答はリアルタイムなビデオ通話形式とテキストチャット形式があります。ビデオ通話形式では1論文に1部屋用意されているためか、参加者が分散して1部屋1部屋が過疎り気味です。周囲を気にせず訊ける反面、通常の学会のノリで他人の議論を聴きに行こうと参加者の多い部屋に入ると、沈黙に殺されることになります。テキストチャット形式はセッション時間外でも質問する事ができます (セッション時間を過ぎてしまえば回答は返ってきませんが) 。テキストベースであるため、話すのが苦手な方にとっては非常に便利な機能です。セッションが終わってもログが見れる利点もあります。

　その他チュートリアルやワークショップも同時に開催されており、身一つではとても回りきれないほど充実しています。

論文紹介

　ここからは、私が個人的に興味を持った (主に画像生成についての) 論文を紹介します。

1. Learning Continuous Image Representation with Local Implicit Image Function

著者：Yinbo Chen, Sifei Liu, Xiaolong Wang. (CVRP 2021)

論文：Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. pp. 8628-8638.

一言で

　画像の局所表現を学習することで、拡大縮小画像の任意の座標における連続的な画素値を回帰する手法

背景

　コンピュータ上では、画像データは離散信号で保存されるため、標本化によって一部の信号情報が切り捨てられます。これらの画像を拡大する際は、この切り捨てられた信号を補間する必要があります。

　従来法では、切り捨てられた信号の値自体を予測するように学習しますが、提案手法では画像特徴から連続値座標における画素値を回帰するデコーダを学習します。

　これにより、モデルの出力のサイズにとらわれない任意の解像度での拡大・縮小が可能となります。

手法

【Local Implicit Image Function (LIIF) の連続画像表現方法】

　論文では、連続画像の予測したい座標とその周辺の2次元特徴量を入力とし、座標のRGB値を予測し出力する「Local Implicit Image Function (LIIF) 」と呼ぶ表現方法を提案しています。

　すべての画像で共有されるデコーディング関数 ( をパラメータとするMLP) で特徴量をデコードします。

LIIFの表現方法 - [2] Fig.2より引用

　式にすると (1) のようになります。

　はの座標、はと間の長方形の面積でで正規化されます。

　式 (1) は、特徴量のデコードをバイリニア補間しているといえます。

【LIIFの学習方法】

　入力画像をLIIF表現として2D特徴マップにマッピングするエンコーダ (パラメータとしてを使用) と、すべての画像で共有されるデコーディング関数を学習します。

　まず、学習用のデータの作成を行います。入力画像として、トレーニング画像からランダムなスケールでダウンサンプリングした画像を使用します。またLIIFで参照する座標と、そのRGB値を作成します。

学習用データの作成方法 - [2] Fig.4より引用

　次に学習の流れについて説明します。エンコーダは、入力画像をそのLIIF表現として2次元特徴マップにマッピングします。はLIIF表現に基づいて座標に対するRGB値を予測します。予測された信号と教師用の信号との間で学習損失 (論文ではL1Loss) を計算します。

学習の流れ - [2] Fig.4より引用

実験・結果

　実験では、PSNRを用いて画質を評価します。

　LIIFは既存の超解像手法に比べて、学習セットに含まれないような極端な倍率 (30倍など) で高い精度を出しています。

PSNRによる比較 - [2] Table 1より引用

　また、LIIFでは画像のエッジ部分のぼけが抑制され、クリアに拡大できている事がわかります。

左から、ピクセルで拡大、バイリニア補間、LIIF (提案手法) - [3]より引用

感想

　フィルムカメラみたいに画像を連続的な表現にするという発想が非常に面白いと感じました。

　ただ、拡大していくと画像がイラストのようなのっぺりとした感じになってしまうのが気になります。デコーディング関数の重みを座標とからなる面積という線形的な値ではなく深層学習で求めれば、もっと詳細なテクスチャやディティールを復元できそうです。

リンク

2. GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution

著者：Kelvin C.K. Chan, Xintao Wang, Xiangyu Xu, Jinwei Gu, Chen Change Loy. (CVRP 2021)

論文：Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. pp. 14245-14254.

一言で

　学習済みGAN生成器をLatent Bankとして使用することにより、超解像の品質を向上させる手法

背景

　ここ数年でBigGANやStyleGANなど、高精度の高解像画像を生成できる深層学習モデルが登場しています。BigGANなどは複数カテゴリーの画像を生成できるため、多様な自然画像に対する潜在空間・特徴空間を持っています。

　これらの既存のGAN生成器が詳細なテクスチャやディティールを生成することに着目し、超解像技術に応用したのがこの研究です。

手法：GLEAN

　この論文では、学習済みのGAN生成器をLatent Bankとして従来のEncoder-Decoder構造に組み込んだ、新しいEncoder-Bank-Decoder 構造を提案しています。

　Latent Bankは、GANによって事前に獲得された多種多用な画像表現を持っています。そのため、このLatent Bankが細かい部分 (ディテールやテクスチャ) の復元を支援することで、Encoderは構造の復元に集中することができます。これにより、EncoderとDecoderが「入力画像に対する忠実度 (以下、忠実度) 」と「フォトリアリズム」の両方を同時に学習する負担が軽減され、学習時間を短くしながら高い品質の超解像画像の生成を期待できます。

Encoder-Bank-Decoder 構造 - [4] Fig.2より引用

　各モデルの役割は以下のようになっています。

Encoder：入力画像の構造を復元し、空間特徴を生成
Latent Bank：自然な画像の事前情報を提供し、詳細特徴を生成
Decoder：空間特徴と詳細特徴を融合

実験・結果

　GLEANでは、学習済みのStyleGANまたはStyleGAN2をLatent bankとして使用しています。

　GLEANでは、他の超解像手法に比べて忠実性や細部のディティールを自然に再現していることがわかります。論文では、64倍の拡大でもリアリティの高い復元に成功しています。

16倍の超解像での比較 - [4] Fig.3より引用

　更に、GLEANの興味深いところは、人の顔のデータセットで学習したにもかかわらず、人の顔ではない画像や、顔の角度が極端に変化するポーズにも対応できる点です。PULSEは低解像度 (下図、各顔画像の左下の小さな図) では正解画像 (GT) に似ているように見えますが、高解像度になるとGTとは大きく異なり正面の顔画像を生成してしまっているのが分かります。

多様なポーズや内容の入力画像に対する出力 - [4] Fig.6より引用

ちなみに

　このEncoder-Bank-Decoder 構造を見て、「BankはGANのGeneratorだから、Encoder-Bankだけで画像は生成できるはず。Decoderは本当に必要なのだろうか？」と疑問に思いました。が、論文ではそのような疑問についてのアンサーもしっかり用意されていました。

Decoderあり/なしの比較 (上段がDecoderあり、下段がなし) - [4] Fig9より引用

　Decoderありの方は、テクスチャ部分の細かいアーティファクトが減っており、より自然な画像になっていることがわかります。DecoderがEncoderからの構造的な特徴量とLatent Bankからの細部の特徴量を融合させる働きをしていることがよくわかります。

感想

　EncoderとDecoderの間に学習済みのGAN生成器を挟む、シンプルながら非常に有用性の高い発想が面白いと感じました。インペインティングや反射面の映り込み除去などのタスクに応用できそうです。

リンク

3. Closed-Form Factorization of Latent Semantics in GANs

著者：Yujun Shen, Bolei Zhou. (CVRP 2021)

論文：Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021. pp. 1532-1540.

一言で

　GANの潜在空間内の意味のある変動 (意味ベクトル) を教師なし学習で発見する

背景

　近年、GANの潜在空間を用いて画像内のオブジェクトの角度や色などを変えるなどの「意味のある変動 (以下、意味ベクトル) 」を操作する試みが多数なされています。

　この論文もその１つです。論文では学習済みのGANの潜在空間から意味ベクトルを見つける手法を提案しています。潜在空間の次元軸に沿って意味を学習させたり、意味ラベルの付いたデータセットを用意したりする必要がありません。

手法：Semantic Factorization (SeFa)

　提案手法では、ほとんどのGANが、ある入力潜在ベクトルを一番最初に全結合層でProjection (投影) することに着目します。

GANの構造 - CVPR2021講義動画より引用

　「潜在空間上の意味のある方向は生成画像を明らかに変化させる」と仮定します。

　GANの1ステップ目のProjectionのパラメータをアフィン変換行列、バイアスをとします。潜在コードを1段階上の特徴空間へマッピングすることは式 (2) で表せます。

　式 (2) から、任意の潜在コードを単位ベクトルに沿ってスカラー値だけ移動させる潜在空間内の操作は式 (3) と表せます。

　ここからを大きく変化させる単位ベクトルを見つけることを目的とします。そのためには、式 (4) の最適化問題を解く必要があります。

　この問題を解くためにラグランジュ未定乗数法を導入すると、の最大固有値に対応する固有ベクトルとして単位ベクトルが求まることになります。

実験・結果

　上記の手法によって得られた意味ベクトルを徐々に変化していった結果です。

意味ベクトルによる出力画像の変化 (左：角度、右：形) - [5]より引用

プロジェクトのホームページではデモの様子が見られます。

感想

　GAN生成器が必ず潜在ベクトルから画像としてアップサンプリングできる形にする際に全結合層を通すという部分への着目が非常に面白いと感じました。

　この手法の一つ残念に感じたところは、抽出した意味ベクトルがどんな「意味」を持つかが生成画像を見ない限りわからない点です。Vision & Language系のモデルと融合させることで、抜き出された意味ベクトルに人が理解可能な名前を自動でつけたり、人が指定した言葉に近い意味ベクトルを探索したりできそうですね。

リンク

おわりに

　記事中では画像生成に関する論文を紹介しましたが、CVPR2021全体では3D系の論文が多い印象でした (実際に3Dコンピュータビジョンに関する論文は200以上ありました[6])。特に、2D画像から3Dを復元・生成する深層学習や、3D姿勢推定についての論文が多かったです。

　バーチャル開催についてですが、実際に参加してみて以下の点について良い点、残念な点を感じました。

良い点
- 発表会場に行く手間・時間が省ける。
- 講演動画を後から見返せる。
- テキストチャットで質疑応答ができるため、チャットログが残る。
- 要点よくまとめられたポスター資料でななめ読みが捗りそう。
残念な点
- 会議の雰囲気を十分に味わえない。
- タイトルごとに部屋が用意されているため、発表者はセッション時間中 (2時間ほど) 質疑応答する羽目になる。ポスターセッションに近い。
- 部屋が過疎りがち。そのため、参加者の建設的な意見交換が難しそう。また、他人が質問しているのを横から聞くことが中々できない。
- ビデオ会議のログが残らない。
- 観光できない。

　聴講するにはバーチャルのほうがありがたいですが、発表するには現地で行いたいといった感じです。

　モルフォでは引き続き最新技術のキャッチアップを行い、価値ある製品の開発に取り組んで参ります。

参考文献

CVPR-2021 Paper-Statistics
Yinbo Chen, Sifei Liu, Xiaolong Wang; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 8628-8638
Learning Continuous Image Representation with Local Implicit Image Function - GitHub
Kelvin C.K. Chan, Xintao Wang, Xiangyu Xu, Jinwei Gu, Chen Change Loy; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2021, pp. 14245-14254
Closed-Form Factorization of Latent Semantics in GANs - GitHub
CVPR 2021 public tableau gallery

インターンシップ 2021：エッジを用いた Inpainting

2021-11-30T10:00:00+09:00

本記事は、2021年のインターンシップで勤務した高橋直暉さんによる寄稿です。

はじめまして。株式会社モルフォでインターンをしていた高橋です。私のインターンシップでは、画像生成タスクの一つであるImage Inpaintingに取り組みました。このタスクは、毎年新しい手法が提案されており、近年では深層学習を導入した手法が主流です。今回は、シンプルで軽量なエッジ情報を用いたImage Inpainting手法[1]の改良に取り組みました。この記事では、インターンシップを通して得られた成果を紹介していきたいと思います。

Image Inpaintingとは

Image Inpainitngとは、図１のような白いマスク領域をもっともらしく埋め込むタスクです。この技術は、望まないオブジェクトの削除や欠損画像の復元を目的としたアプリケーションに利用されます。近年の手法では、マスク領域が大きくても多様な出力（multi-modal）や実写（photo-realistic）のような画像を生成します。さらに、漫画[2]、ユーザーガイド[3]、動画[4]など多様なドメインにも応用されています。しかし、複雑な構造でマスク領域が大きい画像では、生成結果にアーティファクトやボヤけが現れます。よって、さらなる精度の向上が望まれるタスクとなっています。

図１Inpaintingの使用例（スマホで撮影した画像を使用）

既存手法

近年の画像生成タスクでは、深層学習を用いた手法が多く提案されています。Image Inpaintingでも、深層学習を用いることで学習データの分布からマスク領域内部を推測します。このタスクの課題は、画像全体の構造を保ちながら、詳細なテクスチャを生成することです。そのため、近年の手法では、構造を理解するネットワークと詳細なテクスチャを生成する複数ネットワークで構成されるend-to-endな手法が多いです。ここでは、本インターンシップでベースモデルとして使用した手法を説明したいと思います。

EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning [CVPR2019 Nazari+]

この手法は、図２のように２つのGANs（Generative Adversarial Network）ネットワーク[5]から構成されます。一つ目のネットワークでは、マスク化されたエッジ画像に対してInpaintingを行います。このネットワークでは、高周波成分であるエッジの学習に注力することで、画像全体の構造を保っています。２つ目のGANネットワークでは、復元されたエッジ画像から最終的な画像を生成します。このネットワークで詳細なテクスチャの生成を試みています。このように、２つのネットワークを使用することで構造を保ったまま、詳細なテクスチャの生成を実現しています。

図２EdgeConnectのネットワーク全体図 - [1] Figure 2より引用

提案手法

既存手法では、マスクが大きい場合にエッジのInpaintingを失敗する傾向があり、最終的な出力画像はボヤけたりアーティファクトが目立ちました。そこで、本インターンシップでは、１つ目のエッジInpaintingの改良に取り組みました。ここでは、インターンシップ中に提案した手法をいくつか説明します。

エッジマップの検討

既存手法では、１つ目のネットワークでCannyエッジをInpaintingすることで画像の構造を保持しています。しかし、図３(b) のCannyエッジでは、顎や目のエッジが抽出できていないことが確認されます。そこで、私はDoG（Difference of Gaussians）とXDoG（eXtended Difference of Gaussians）[6]を使用しました。DoGは、カーネルサイズが異なるフィルタで差分を取ることで、ノイズに強いエッジ抽出を可能としています。XDoGでは、DoGにシャープ化と閾値処理をかけることでインクイラストのような画像を生成します。下図 (c, d) の例では、Cannyでは抽出できなかった顎や目のエッジがDoGとXDoGでは抽出できていることが確認できます。また、XDoGでは閾値により減色化された連続的な値を持っているため、影の抽出もできていることが確認できます。

図３エッジマップの比較（公開可能なFFHQ[7]の画像を使用）

ガンマ補正の検討

今回の実験で使用するParis street view[8]では、コントラストの低い画像が多く含まれています。そのため、図４(a)のようなコントラストの低い画像では、DoGのエッジ抽出がうまく働かないことがあります。そこで、エッジ抽出時にガンマ補正を掛けることで、低コントラスト画像でもエッジが抽出できるようにしました。図４(b, c)より、ガンマ補正によってDoGのエッジ抽出が改善され、XDoG (d, e)でも変化が確認できます。

図４ガンマ補正（スマホで撮影した画像を使用）

ロスの検討

マスクが大きい場合、Inpaintingされたエッジでは鱗模様やボヤけが生成されます。これを改善するためにBinarization lossとTotal variation lossを追加しました。Binarization lossは、0か1の画素値を高く評価する損失関数であり、エッジ付近の学習を効率化させます。Total variation lossは、スタイル変換[9]などで使用されている画像の滑らかさを評価する損失関数です。以上の2つの損失関数を既存手法に加えてモデルを学習させました。

実験

実験では、CelebA[10]とParis street view[8]のデータセットを用いてモデルを学習させました。CelebAは、著名人の顔画像を集めたデータセットです。Paris street viewは、Google Street Viewから取得したパリの街並みを集めたデータセットです。それぞれからランダムに取得した１万枚の画像を４０エポックで学習させました。
精度評価では、PSNR、SSIM、FID、LPIPSの４つを用いました。PSNRは、画素値の変化を評価する古典的な評価手法の一つですが、一つの画素値が大きく異なるだけで全体の評価が悪く判定されます。そのため、ウィンドウごとに画素値やコントラストを評価するSSIMも使用しています。また、近年の深層学習の発展に伴い、深層学習の大規模ネットワークを用いた評価手法であるFIDとSSIMも使用しています。FIDではInceptionモデルの中間ベクトルから画像集合の分布間距離によって評価され、LPIPSではImageNetの中間特徴量から画像間の視覚的類似度を評価します。
本セクションでは、モデルの出力画像と評価結果を元に、提案手法の有効性を検証していきたいと思います。

エッジの推定精度の比較

人物の顔画像

表１は、各エッジを用いて生成した結果の評価値を示しています。ここで、青色は最も悪い結果を示し、赤色は最も良い結果を示しています。表より、全てのマスクサイズにおいて、提案手法のDoGとXDoGが既存手法のCannyを上回っていることが確認できます。

表１各エッジマップの精度（CelebA）

図５のグラフは、マスクサイズにおけるFIDとLPIPSの変化を示しています。図より、マスクサイズが大きくなると、XDoGと他のエッジの精度差が広がっていることが確認できます。これは、XDoGでは中間特徴の類似性が優れていることを示しているため、画像の構造保持として、より機能していると考えられます。

図５大規模ネットワークを用いた評価手法の精度変化

図６は各エッジマップにおけるマスクサイズが30-50%の生成結果を示しています。既存手法のCannyでは、目の崩れが確認されますが、DoGとXDoGではエッジが効いた画像が生成されています。また、マスクサイズが50%の時は、CannyとDoGでは顔の輪郭が崩れていますが、 XDoGでは保たれています。

図６各エッジマップにおける結果画像（公開可能なFFHQ[7]の画像を使用）

風景画像

表２の結果より、XDoGが最も優れたエッジマップであることが確認できます。ただし、データセットの性質上、CelebAに比べて全体的に精度が悪いことが確認されます。これは画像対象物が多様で複雑であることが要因として考えられます。

表２各エッジマップの精度（Paris street view）

図７は、マスクサイズが10-30%の生成結果を示しています。他のエッジマップに比べてXDoGでは、エッジがよりはっきりと生成されていることが確認されます。

図７各エッジマップにおける結果画像（スマホで撮影した画像を使用）

以上より、複数のデータセットにおいて、XDoGを使うことで精度の向上を確認できました。

ガンマ補正の検証

表３は、ガンマ補正有無のDoGとXDoGの精度結果を示しています。ここで、表の赤文字は勝っている結果を示しています。表３より、DoGにはガンマ補正が有効に作用し、XDoGには逆効果だったと確認できます。これは、ガンマ補正によってDoGのエッジ抽出が明らかに向上していましたが、XDoGのエッジ抽出は元から機能していたため良い影響を与えなかったと考えられます。

表３ガンマ補正の精度評価（Paris street view）

図８は、ガンマ補正有無のDoGを用いた結果です。通常のDoGでは建物や窓のエッジが抽出できず復元結果がボヤけていますが、ガンマ補正をかけることでエッジが効いてマスク跡が目立たない画像が生成できています。

図８ガンマ補正の結果画像（スマホで撮影した画像を使用）

ロスの追加

表４は、XDoGを用いた既存手法(Vanila)に、Binarization Loss(+Bi)、Total Variation Loss(+TV)、その両方(+TV+Bi)を加えた４手法を比較しています。ここで、表の赤文字は最も良い結果を示しています。表より、精度差は少なく、精度の向上は確認できませんでした。学習曲線が収束していなかったので、学習時に損失関数がうまく働かなかったと考えられます。

表４ロス追加による精度評価

以上より、上手く行った手法と上手くいかなかった手法がありました。今後は、ヒストグラム平滑化によるコントラスト補正やロスの重みを変えて精度が向上するか確認してみたいと思います。

デモ動画

GitHub - Kohey1480/inpaint-appを参考にデモ用アプリケーション上で実験を行いました。選択タブでエッジの種類とデータセットを選択できるようになっています。動画の前半は、FFHQ[7]の画像とXDoGを用いて、目のInpaintingをしています。後半部分は、スマホで撮影した写真の一部をマスクしています。

続いてのデモ動画では、街の風景をスマホで撮影した画像を用いています。マスク境界付近にボヤけが確認されますが、オブジェクトの削除に成功しています。このモデルは少ない画像枚数で学習されたため、ImageNetなどの大規模データセットで事前学習をすることで精度の向上が期待できます。

感想

今回のインターンシップは、東京で緊急事態宣言が発令されたため、大部分をオンライン上で行いました。幸運なことに１週目は出社が出来たので、メンター以外の社員さんと交流して、モルフォでの働き方の話を聞くことができました。また、社内の報告会や勉強会にも参加させて頂けたので、具体的な事業内容や最新の論文などを知れて勉強になりました。最初は成果が出るか不安でしたが、メンターの献身的なサポートのおかげで既存手法よりも精度が向上したので、非常に充実したインターンが送れたと思います。最後に、本インターンを行うにあたって、研究のアドバイスやオンラインの環境構築をしてくださった株式会社モルフォの社員さんに感謝申し上げます。

参考文献

[1] Nazeri, Kamyar and Ng, Eric and Joseph, Tony and Qureshi, Faisal Z and Ebrahimi, Mehran. EdgeConnect: Structure Guided Image Inpainting using Edge Prediction. ICCV2019
[2] Minshan Xie and Menghan Xia and Xueting Liu and Chengze Li and Tien-Tsin Wong. Seamless Manga Inpainting with Semantics Awareness. SIGGRAPH 2021
[3] Jo, Youngjoo and Park, Jongyoul. SC-FEGAN: Face Editing Generative Adversarial Network With User's Sketch and Color. ICCV2019
[4] Liao, Miao and Lu, Feixiang and Zhou, Dingfu and Zhang, Sibo and Li, Wei and Yang, Ruigang. DVI: Depth Guided Video Inpainting for Autonomous Driving. ECCV2020
[5] Goodfellow, Ian and Pouget-Abadie, Jean and Mirza, Mehdi and Xu, Bing and Warde-Farley, David and Ozair, Sherjil and Courville, Aaron and Bengio, Yoshua, Generative adversarial nets. In Advances in neural information processing systems. 2014
[6] Winnemöller, Holger and Kyprianidis, Jan Eric and Olsen, Sven C. Xdog: an extended difference-of-gaussians compendium including advanced image stylization. Computers & Graphics, 36(6). 740--753. 2012
[7] Karras, Tero, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. CVPR2019
[8] Pathak, Deepak and Krahenbuhl, Philipp and Donahue, Jeff and Darrell, Trevor and Efros, Alexei. Context Encoders: Feature Learning by Inpainting. CVPR2016
[9] Mahendran, Aravindh and Vedaldi, Andrea. Understanding deep image representations by inverting them. CVPR2015
[10] Liu, Ziwei and Luo, Ping and Wang, Xiaogang and Tang, Xiaoou. Deep Learning Face Attributes in the Wild. ICCV2015

ICML 2021 参加報告

2021-11-05T10:01:27+09:00

こんにちは、CTO室リサーチャーの長山と申します。

モルフォでは最先端の画像処理・機械学習に関する研究のキャッチアップのため、国内外問わず毎年各種学会に技術系の社員を派遣しています。今回は機械学習の国際会議「International Conference on Machine Learning 2021（ICML 2021）」に長山と、同じくCTO室リサーチャーの鈴木・中川で参加しました。本投稿では、はじめに学会の概要について説明し、次に私が注目した論文3本を紹介します。

ICML 2021 概要

ICML（International Conference on Machine Learning）は機械学習に関する総合的な国際会議であり、トップカンファレンスの一つとして認知されています。毎年7月頃に開催され、世界各国の研究機関や企業から、学術研究者やエンジニア、起業家などの様々なバックグラウンドを持つ参加者が一堂に会し、機械学習のあらゆる側面における最先端の研究成果を発表しています。第38回となる今年度はオーストリアのウィーンで開催予定でしたが、世界的なCOVID-19の流行の影響により完全バーチャル開催となりました。

統計

投稿論文数5,513本に対して採択論文数は1,184本（うちLong talks 166本、Short talks 1,018本）、採択率は21.5%でした。直近5年の投稿論文数は年1,000本程度のハイペースで増加しており、今後もこの傾向は続くものと思われます。また、採択率は例年通りの2割程度の狭き門で、やや低下傾向にあるものの大きな変化はありません。

図1. 投稿論文数/採択率の推移。'16年度の投稿論文数はデータなし。統計データの引用: [1]

プログラム

今年度は2021/7/18（日）から7/24（土）の7日間¹で開催され、以下のようなスケジュールでした。

7/18: Expo day
7/19: Tutorial
7/20-7/22: Main Conference and Invited Talks
7/23-7/24: Workshop

「Main Conference」は、採択論文の各著者が研究内容をの発表を行うプログラムです。発表形式は大きくオーラルとポスターに分かれていて、重要度の高い論文が主にオーラルとして発表されています。今年度のオーラルはLong talksとShort talksの二種類があり、Long talkではプレゼン+質疑応答の計20分、Short talkはプレゼンのみで計5分の発表スケジュールでした。ポスターセッションはオンラインビデオ通話サービス「Gather.Town」を用いて、レトロRPG風の仮想空間上で質疑応答を行う仕組みとなっていました。

論文紹介

Globally-Robust Neural Networks

Authors: Klas Leino, Zifan Wang, Matt Fredrikson

はじめに、敵対的摂動に対してロバストなクラス分類器の設計手法に関する論文を紹介します。

近年の高性能なクラス分類モデルは深層ニューラルネットワーク（DNN）ベースの手法が主流で、優秀な人間が分類したときの精度を超えていると言われています。しかしながら、正解データに加えることで分類モデルを"騙す"ような微小なノイズ（図2.）の存在が知られていて、敵対的摂動（adversarial perturbation）と呼ばれています。

図2. 敵対的摂動の実例、GoogLeNet[2]によるImageNetデータセットの分類結果。"パンダ"クラスに分類される画像（左）に敵対的摂動（中央）を加え"テナガザル"への誤分類を引き起こす（右）。引用: [3]

このような敵対的摂動の存在は、自動運転や顔認証システムなどで悪用されると脅威をもたらすおそれがあります。そのため、敵対的摂動を加えられても誤分類を起こしにくい（=ロバスト性を持つ）モデルが求められていますが、既存のDNNベースのロバスト分類手法は小さいモデルでも学習時間およびメモリのコストが高い問題があります。

本論文では、既存のクラス分類モデルに組み込むことで大域的ロバスト性を保証可能にする手法（GloRo Nets）を提案しています。少し不正確な表現になりますが、クラス分類問題における大域的ロバスト性とは有限な幅の決定境界を持つ性質です（図3. 左）。

図3.（左）大域的ロバスト性、（右）⊥クラスのロジット。引用: [4]

本手法の基本的なアイディアはとても単純で、ベースとなるモデルに「ロバスト性の悪さ」を表すクラス（⊥）を新しく追加して学習を行います。このときのモデルをGloRo Netと呼びます。GloRo Netの⊥クラスのロジット出力² は、定数と各クラスのロジット出力とリプシッツ定数を用いて

と定めます。直感的には、入力点を少しだけ（距離）動かしたときに取りうる競合クラスの相対的な最大ロジットを表します（図3. 右）。訓練ステップでは、ベースモデルのロジットに⊥クラスを加えたベクトルのソフトマックス出力と、教師データの one-hot ベクトル表現との損失関数を用いてモデルの重みを更新します。このように定めたGloRo Netは大域的ロバスト性が保証されます。そしてクラス分類結果は、⊥クラスに分類される場合を除き、元の分類モデルと同じ結果を返します。

著者らは摂動を加えたデータセット（MNIST/CIFAR-10/Tiny-ImageNet）で画像分類実験を行い、既存のロバスト分類手法と同等以上の精度（VRA³）を達成することを確認しました。また、べき乗法による効率的なリプシッツ定数の上界推定アルゴリズムを用いることで、既存手法と比べて非常に高速かつ低メモリ使用量の学習を実現しました。

Understanding Self-Supervised Learning Dynamics without Contrastive Pairs

Authors: Yuandong Tian, Xinlei Chen, Surya Ganguli

次に、最優秀論文選外佳作（outstanding paper honorable mention）の一つを紹介します。

負例を必要としない自己教師あり学習（Self-Supervised Learning; SSL）において表現の崩壊⁴が発生しない理由を理論的に解析した論文です。SSLとは、訓練データ自身から教師を作り出すような学習手法であり、代表的な手法として対照学習（Contrastive Learning; CL）が知られています。典型的なCLでは元となる訓練データ（＝アンカー）から正例と負例を作り出し、正例には近づけ負例からは遠ざけるようにアンカーの表現を学習します。一方で、近年では負例を使わずに正例のペアだけを使って表現を獲得する手法が提案されていて、非対照学習（Non-Contrastive Learning; NCL）と呼ばれています。

図4. 非対照学習のモデル図。引用: [5]

本論文では、図4. で示されるようなOnline・Target・Predictorの3つのコンポーネントからなる非対称な双子ネットワーク⁵のNCLモデル（BYOL[6]/SimSiam[7]）を対象として解析を行いました。OnlineとTargetは異なる重みを持つ同一アーキテクチャの表現エンコーダであり、PredictorはOnlineからTargetへ表現の変換を行います。訓練ステップでは、1枚の入力画像からサンプルした2枚のデータ拡張画像をそれぞれのネットワークに渡し、Predictorの出力をTargetに近づけるようにPredictorとOnlineを更新します。Targetについては、出力にstop gradientを挿入し重みの更新を行いません。

著者らは問題設定の単純化のために、各コンポーネントはバイアス項のない線形モデルの条件で解析を行いました。この設定の上で、各コンポーネントの固有値に関する勾配流⁶を考えることで以下の事実を示しました。

stop gradientを使わない場合、Onlineの固有値は0に収束 → 学習は確実に失敗する
あるしきい値が存在し、学習率がしきい値以下ならばOnlineとPredictorの固有値はそれぞれ非0の値に収束 → 表現の崩壊は発生しない

また、著者らはこれらの議論をもとに、Onlineの重みから直接Predictorを更新するアルゴリズム（DirectPred）を提案しました。画像クラス分類タスク（STL-10/CIFAR-10、ImageNet）で実験を行い、確率的勾配降下法（SGD）で学習する従来手法より高い精度を達成したことを示しました。

Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies

Authors: Paul Vicol, Luke Metz, Jascha Sohl-Dickstein

paper (PMLR)

最後に最優秀論文（outstanding paper）を紹介いたします。

再帰型ニューラルネットワーク（RNN）やハイパーパラメータ探索などのアルゴリズムは、一般にループ構造を持つ計算グラフとしてモデル化できます。これらのモデルのパラメータ最適化タスクにおいて誤差逆伝播法を用いると、勾配消失・爆発などの問題を生じやすいことが知られています。進化戦略（Evolution Strategy; ES）は有限差分法に基づく確率論的な勾配推定を用いた最適化手法であり、このような計算グラフのケースでもうまく動作する一方で、ループ展開した計算グラフの全系列を用いるので計算コストが高い欠点があります。本論文では、計算グラフの短く打ち切った部分系列から勾配を高精度で推定し、パラメータ更新を高速化した最適化アルゴリズムを提案しています。

図5. ループ展開された計算グラフのモデル図。引用: [8]

ループ展開した計算グラフのモデル図を図5.に示します。パラメータを、時刻における状態を、パラメータ最適化の目的関数をで表しています。既存手法の ES アルゴリズムでは目的関数の勾配を、正規分布に従うランダム変数を用いた有限差分近似

によって推定します。ES アルゴリズムは勾配が陽に計算できないブラックボックス関数に対しても適用可能な利点がありますが、計算グラフの全系列を使用するため高い計算コストがかかります。途中で打ち切った計算グラフを用いると計算コストは削減できますが、推定量に無視のできないバイアスが残ることが知られています。

本論文で提案された持続的進化戦略（Persistent Evolution Strategy; PES）アルゴリズムでは、パラメータに加えるランダム変数を時刻ごとに独立化した勾配推定量

によって最適化を行うようにESを改良しました⁷。ここで、はランダム変数の累積値です。推定量は、打ち切った計算グラフを使った場合でも勾配の不偏推定量となることが示されています（詳細は論文をご覧ください）。

著者らはいくつかのシナリオで実験を行い本手法の有効性を示しました。そのうちの一つが多層パーセプトロン（MLP）を用いた MNIST 分類器のハイパーパラメータ最適化です。このシナリオでは、打ち切った計算グラフを用いて4層MLPの学習率のメタ学習⁸ とハイパーパラメータチューニングを同時に行い、PESは既存手法（ES）より良いメタ損失に収束することを示しています。

全体の感想

昨今の機械学習のトレンドを学ぶ上でとても役立つ貴重な機会となりました。バーチャル開催の国際会議への参加は今回が初めてでしたが、オーラルセッションを好きなタイミングで見返すことができるシステムは便利だと感じました。

参考文献

[1] Statistics of acceptance rate for the main AI conferences, https://github.com/lixin4ever/Conference-Acceptance-Rate

[2] C. Szegedy, W. Liu, Y. Jia, and P. Sermanet, "Going deeper with convolutions," in IEEE conference on computer vision and pattern recognition (CVPR), 2015, [Online]. Available: https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Szegedy_Going_Deeper_With_2015_CVPR_paper.html

[3] I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” in International Conference on Learning Representations (ICLR), 2015, [Online]. Available: https://arxiv.org/abs/1412.6572

[4] K. Leino, Z. Wang, and M. Fredrikson, "Globally-Robust Neural Networks," in International Conference on Machine Learning (ICML), 2021, pp. 6212–6222 [Online]. Available: https://proceedings.mlr.press/v139/leino21a.html

[5] Y. Tian, X. Chen, and S. Ganguli, “[Presentation] Understanding self-supervised learning dynamics without contrastive pairs,” in International Conference on Machine Learning (ICML), 2021, [Online]. Available: https://icml.cc/media/icml-2021/Slides/10403.pdf

[6] J.-B. Grill, F. Strub, F. Altché, C. Tallec, P. H. Richemond, E. Buchatskaya, C. Doersch, B. A. Pires, Z. D. Guo, M. G. Azar, B. Piot, K. Kavukcuoglu, R. Munos, and M. Valko, "Bootstrap your own latent: A new approach to self-supervised Learning," in 34th Conference on Neural Information Processing Systems (NeurIPS 2020), 2020, [Online]. Available: https://arxiv.org/abs/2006.07733

[7] X. Chen, and K. He, "Exploring Simple Siamese Representation Learning," in IEEE conference on computer vision and pattern recognition (CVPR), 2021, [Online]. Available: https://arxiv.org/abs/2011.10566

[8] P. Vicol, L. Metz, and J. Sohl-Dickstein, “Unbiased Gradient Estimation in Unrolled Computation Graphs with Persistent Evolution Strategies,” in International Conference on Machine Learning (ICML), 2021, pp. 10553–10563 [Online]. Available: http://proceedings.mlr.press/v139/vicol21a.html

米国太平洋標準時（PST）を基準とした場合。日本標準時（JST）では7/18（日）の夜から7/25（日）の朝にかけての時間帯となります。↩
出力層の活性化関数（ロジスティック関数やソフトマックスなど）の直前における値。↩
Verified-Robust Accuracy。ロバスト（が小さい）かつ正しく分類されたデータの割合。↩
入力画像の種類に関わらず、常に似通った表現を推論するような"退化"したモデルの状態を表します。↩
一般的にはシャムネットワーク（Siamese Network）と呼ばれています。"Siamese" は差別的な意味合いを含むことから、本稿ではあえて異なる名称を用いています。↩
勾配降下法による最適化の手続きは、学習率+0の極限においてパラメータに関する時間発展の微分方程式として扱うことができます。これを勾配流（gradient flow）と呼びます。↩
表記の変更（notation shift）を行っています。新しい表記では、時刻におけるパラメータを、目的関数をとしています。ここでです。状態変数は表記を省略しています。↩
適切な解に早く到達するような学習率自体を機械学習によって求めるタスク。↩

【無料トライアル公開中(~2021/12/31)】世界最速級推論エンジンSoftNeuroにおける高速化手法

2021-10-19T09:03:45+09:00

こんにちは、プロダクト開発部の平﨑です。

今回は、弊社製品SoftNeuro®における推論処理の高速化手法についてご紹介します。なお、現在SoftNeuroの無料トライアル版が配布中です。

SoftNeuro概要

詳細は後程解説しますが、まずは、SoftNeuroの特徴をまとめた紹介動画をご覧下さい。

紹介動画の利用シーンからイメージいただけるかと思いますが、SoftNeuroはニューラルネットワークの推論を行うソフトウェアです。

ディープラーニング技術を使って、コンピュータに何らかのタスクを実行させる場合、大きく分けて2つの工程が必要になります。それが「学習」と「推論」です。

「学習」とは目的とする推論を行うためのニューラルネットワークを作る工程です。

目的となるタスクに応じて適当な構造のネットワークモデルを選び、学習用のデータを大量に与えることで、適切な推論が行えるようなニューラルネットワークを作成します。

「推論」は「学習」の工程で作ったニューラルネットワークを実際に使う工程です。

利用したい環境に学習済みネットワークと推論処理を行うプログラムを導入し、入力された未知のデータが何であるか等の判断をさせます。この推論処理を高速に行うためのソフトウェアがSoftNeuroです。

SoftNeuroの特徴は「あらゆる場所で高速に」動作することです。

SoftNeuroは、ネットワークモデルを保存する独自のファイル形式を採用していますが、様々な学習フレームワークからこの形式に変換するための機能が用意されています。

この形式に一度変換すれば、SoftNeuroが動作するどの環境でも即座に学習済みネットワークを利用した推論処理を実行することが可能となります。

さらにSoftNeuroは独自の高速化手法であるチューニングという機能を使うことで、あらゆる環境での高速な推論処理を実現しています。

今回の記事では、このチューニング機能についてご紹介していきます。

チューニングとは

SoftNeuroはチューニングという機能によって、多種多様な環境に対応した高速推論実行を実現しています。なお、モルフォはこのチューニング機能に関する特許*1を取得しています。

チューニングとは、あるモデルの推論を行う際に、実行環境に合わせた適切な実装を選択するための機能です。

ニューラルネットワークは基本的に、多数のレイヤー処理によって構成されています。一般的な学習・推論フレームワーク同様、SoftNeuroもレイヤー単位で処理を実装しています。

そして各レイヤーに対して、単一ではなく複数種類の実装を用意しています。

弊社ではこれらの各実装をルーチンと呼んでいます。

（具体的にどのようなルーチンの種類があるかは後述します）

ルーチンはハードウェア資源や導入されているフレームワークなど、推論を実行する際の様々な条件に合わせて高速な処理ができるよう様々な実装が用意されています。

この複数のルーチンの中から、実行条件下で最も高速なルーチンを選択して各レイヤーに設定することで、様々な実行環境における高速な推論処理が可能となっています。

例えば以下の表のように、三種類のルーチンがそれぞれ実装されているレイヤー1、2からなるモデルがあったとします。

SoftNeuroでは、これらのレイヤーにおいてどのルーチンを採用すれば最速で処理できるか、実行環境での速度測定結果をもとに判断します。

そして各レイヤーに適切なルーチンを設定することで、その後の推論処理において常に最速のルーチン設定を利用した推論処理を行うことができるようになるのです。

こちらの例のような速度測定の結果が得られた場合、環境AではAVX実装とOpenCL実装、環境BではCUDA実装がそれぞれのレイヤー処理で採用されることになります。

（より正確には、自動的に挿入される型変換等も考慮してモデル全体の推論処理が最も高速になるような設定の組み合わせの探索を行っています）

ルーチンの実装例

チューニング機能は各レイヤーに対して様々なルーチンを用意することで、より多くの選択肢から実行環境で高速に動作する実装を選ぶことができるようになっています。

ここからは、実際にどのような方法で高速な処理を行うルーチンを実装しているかをご紹介していきます。

SIMD実装

SIMD(Single Instruction/Multiple Data)とは、一つの命令を複数のデータに対して並列に実行する仕組みのことを指します。

SIMDにはx64のAVX, ARMのNEONなど、アーキテクチャに独自の命令セットが用意されており、SoftNeuroではそれらの命令を利用したルーチンも用意しています。

具体的にはAVX2, AVX512, NEONなどの独自命令を利用したルーチンの実装があり、これらは対応しているアーキテクチャの環境でしか利用できないルーチンですが、通常の命令で実行した場合よりも処理が高速になります。

SIMD命令が有効な理由として、ニューラルネットワーク推論ではfloatの並列演算が非常に多いという点が挙げられます。

例えばAdd(加算処理)レイヤーなどは上図のように、複数の値に対して並列に加算命令を実行するものです。

このような演算処理がニューラルネットワーク推論では頻繁に行われるため、SIMD命令を利用することで推論の高速化が見込めます。

各種プロセッサの利用

推論処理を行う環境には、CPU以外にもGPUやチップセットに組み込まれたAI Acceleratorなどの様々なプロセッサが存在する場合があります。

これらのハードウェア資源を有効利用するために、SoftNeuroではCUDAやOpenCL、HNNなどを利用したルーチン実装も用意されています。

これらのルーチンも先程のSIMD実装と同様、対応するハードウェアで処理が行える環境でなければ利用することができませんが、高速な場合が多いです。

特にAI Acceleratorを利用した場合は同環境のCPU処理と比較すると非常に高速で、推論処理が10倍以上高速化した例もあります。

量子化

ニューラルネットワークには学習によって設定された重み値というものがあります。推論処理を実行する際には、入力データに対してこの重み値を利用した様々な演算を行うことになります。この重み値が適切な組み合わせになっていると、より精度の高い推論を行うことが可能となります。

重み値は通常float32形式で保存されている場合が多く、推論処理を行う時もそのままの型で演算を行います。

量子化はその重み値や入力データを、よりデータサイズの小さい型(float16やqint8)に変換して推論処理を実行する技術です。

量子化推論では、演算を実行する際のデータ量が減るので計算が軽くなるため、推論処理全体の高速化が期待できます。

しかし、もともとの推論処理に比べて情報量が減っているため、推論結果の精度が劣化する可能性があります。

SoftNeuroでは、この機能は利用条件に応じて使い分けることができるようになっており、精度と速度のバランスを取ることができるようになっています。

アルゴリズム

これらの他にも「同じ結果が得られるがアルゴリズムが違う」というルーチンもあります。

具体例としてはconv2レイヤーにおけるwinogradルーチンが挙げられます。また、他にも社内で開発した「キャッシュ効率化版」の実装などもこちらにあてはまります。

これらのアルゴリズムは通常の実装と比べると高速ですが、フィルターサイズ等のレイヤー設定に実行のための条件があります。

こういった複数のアルゴリズムの中から実行可能かつ高速なものを選択するということも、チューニングによって可能となっています。

まとめ

今回は、弊社製品である世界最速級推論エンジンSoftNeuroで採用されている推論処理の高速化手法についてご紹介しました。

この他にもLayer Fusionによるモデルの最適化など、SoftNeuroには様々な高速化の工夫が施されています。

ご興味の湧いた方は、現在配布されている無料トライアル版をダウンロードいただくと、実際にチューニング処理などをご自分の環境でお試しいただけます。

softneuro.morphoinc.com

こちらは2021年12月末までとなっていますので、この機会にぜひご利用いただければと思います。

最後までお読みいただき、ありがとうございました。

*1:日本特許第6574004号他、各国で権利化中。

モルフォ35時間ルール

2021-09-22T10:04:49+09:00

※この記事は、2021年５月25日に投稿した「Morpho's 35-hour Projects」の日本語版です。

　こんにちは。CTO室のシニアリサーチャーの茶民と申します。今回の記事では、各社員が業務時間中に自身の好きなプロジェクトを行えるモルフォの取り組みについてご紹介します。

　モルフォでの就業時間は一日平均7時間であり、月の合計で約161時間となります。モルフォでは、このうち20%の時間を各々の好きなプロジェクトの進行に割くことができます。プロジェクトの内容は、モルフォの業務に関係することであればなんでも構いません。月35時間の範囲内なら何をしても良いため、「35時間ルール」と呼ばれています。本業に影響しなければ会社のリソースを利用することもできます。弊社では2018年からこのルールを開始し、初めはエンジニアとリサーチャーのみのルールでしたが、今では全社員がこの35時間ルールで自分のプロジェクトを行うことができます。

　読者のみなさんは、「あれ、これってGoogleの20%ルールと同じじゃない？」と思ったかもしれません。そうです。Googleも社員に労働時間の20%までを各々のプロジェクトに割けるようルールを設けました。しかし元々は、あのポストイットの発明で有名な3Mが始めたものでした。1948年から、3Mは労働時間の15%を独立したプロジェクトに割くよう従業員に強いています。他の会社でも似たようなルールを設けているところもあります。マイクロソフトの「Garage」、ヤフーの「Hack Day」、アトラシアンの「20%プロジェクト」、アップルの「Blue Sky」などです。

　なんだか似たようなものがたくさんありそうですね。このような企業の取り組みについて書かれた本もありますので、もっと知りたい方はぜひ読んでみてください。

35時間ルールの目的

　上述した企業はそれぞれの目的がありこのような独自性のあるルールを設けました。これから、35時間ルールの目的、そして、モルフォとその従業員の取り組みによって、どんな成果が得られたか説明していきたいと思います。

　第一の目的は、イノベーションの推進です。我々はソフトウェアベンダーとしてモバイル端末向けのソフトウェアの開発に注力しているため、ソフトウェアだけを独立して売ることができません。常に新しく作られたハードウェアに合わせて製品を改修し、また長期にわたりサポートしなければなりませんので、顧客に合わせたソフトウェアを作ることに多くの時間を割いています。これでは独創性のある新しいアイデアで大きなプロジェクトを始めにくいですよね。一方、個人で行うプロジェクトならば、斬新なアイデアを最初は小さいスケールの「proof-of-concept」型で始められます。そして各々の社員が作ったプロトタイプを他の社員に見せます。このようにすれば、どんな新製品を開発すべきか、幅広い選択肢から決めることができます。企業は個々人のアイデアを引き上げ（=pull）、それに基づいて製品を作ることができるため、この35時間ルールは「Pull型プロジェクト」とも呼ばれています。

　第二の目的は、社員にスキルアップの機会を与えることです。例えばモルフォのあるエンジニアが、AI製品を作っているとしましょう。もちろんそのエンジニアは機械学習などについて詳しく、そのスキルを製品開発に役立てています。しかしそのエンジニアがCGのスキルを磨きたいと思っていても、そのまま製品開発を続けているだけでは機会がありません。ですが労働時間内で個人的なプロジェクトとしてCGを始めれば、望みは叶います。たとえ本業とは無関係でも、モルフォが損失を被るわけではありません。技術のトレンドの変化は激しく、この先に顧客からどんな要望が来るのか予測ができません。顧客から「これ作れますか？」「この問題解決できますか？」といきなり聞かれることがよくあります。もしこんなことが起きても、幅広い知識を持った社員がいれば、顧客の要望に素早く応えることができます。

　第三の目的は、面白味は無いかもしれませんが、重要なことです。労働環境や生産性をほんのちょっと改善するためにプロジェクトが行われることがあります。弊社の管理部門はより良い労働環境を提供できるよう最善を尽くしていますが、そのために購入したツールが弊社に完全にマッチしているとは限りません。たとえば、一枚の写真をアノテーションするツールがあったとして、現在使っているモノよりも数秒速くアノテーションできるツールを開発できたら、長期的に見れば数時間の節約に繋がるのです。

社内発表

　昨年、モルフォでは各自のプロジェクトの発表会を開催しました。プロジェクトを終えた社員も、まだ終わってないけれどもアドバイスやフィードバックが欲しい社員も、プレゼンテーションを行います。この発表会は社員の誰でも聴講できます。2~15分で自由なスタイルで発表できます。

今後の展望

　弊社の事業部や、事業開発部では、製品にできそうなものをピックアップして吟味しています。実際、2つのプロジェクトがすでに開発フェーズへと移っています。このルールを運用してから、同僚がどんなスキルを持っているのか皆知るようになりました。プロジェクトが面白ければ、複数人で遂行することもできます。AI系のプロジェクトではデータ収集が必須であるため、そのお願いをすることもできます。

プロジェクトの紹介

　発表会でプレゼンテーションされたプロジェクトをいくつか紹介したいと思います。これらの成果をご覧になって、読者のみなさまに新しい発想やモチベーションをご提供できれば幸いです。技術の詳細について紹介できないのは申し訳ないのですが、読んでいただければ新しい着想を得ることができるかと思います。

AIによるUSBデプスカメラ

　これは筆者のプロジェクトです。以前私は、移動中に障害物をカメラで検知して避ける小さなロボットを作ったことがあります。ロボットのコンピュータにはRasberry Pi 3 Model Bを使用しました。その時は、カメラから奥行推定をして、障害物検知を行い、ロボットにそれを避けるよう移動経路を計算させていました。現代では、数多くの単眼カメラデプス推定の研究がなされているため、Githubからすぐに動くコードを用いることができます。しかし、実際にロボットに適用してみると、全く別の問題につきあたりました。Rasberry Piがナビゲーションやデプス推定などの重いタスクにすでに計算資源を占有されていたのです。周りを見渡せば、これは私だけが直面する問題ではないでしょう。ロボットやドローンなどの小さなデバイスでは、コンピュータビジョンのタスクを処理するのに十分な計算資源がないのです。

　このような問題を解決するには2つの常套手段があります。単純な方法としては、ロボットに計算資源を増設するやり方です。しかし実際は、例えばロボットが既成製品である場合は必ずしも上手くいきません。もしくは、画像を送ってデプス推定だけ別のコンピュータにやらせることも可能です。が、ネットワークを設定する必要があり、遅くて使い物になりません。

　そこでは私は第三の方法をとりました。USBカメラからロボットに直接デプス画像を送れば、デプス推定に計算資源を割く必要がなくなるのです。USBポートとUSBカメラはたいていの小さなコンピュータでもサポートされています。そのため、カメラを様々な用途で用いることができるのです。私は、これを個人のプロジェクトとしてやってみることにしました。

　技術的な詳細は別途ブログに書く必要があるため、ここでは割愛します。端的に言うと、Rasberry Pi Zero、Rasberry Pi カメラモジュール、疑似的な監視カメラのプロトタイプを作りました。画像やデプス、またはその両方をたった一つのUSBポートを介してロボットに送信するカメラのプロトタイプを、電子部品をいくつか装着させることで製作しました。図1にハードウェアの構成を示します。図2に実際のカメラとサンプル画像を示します。

図１

図2

VRヘッドセット向け3D空間ビューワー

　これもCTO室社員によるプロジェクトです。コンピュータビジョンと動作検知の技術を統合し、Oculus Quest 2®を用いて仮想空間を作るというアイデアです。とある屋内の三次元空間をモデル化するために、約100枚の写真を撮影します。ヘッドセットに装着された向き・動きセンサーをVR空間をレンダリングするために用います。図3に、レンダリングされた3次元空間モデルを示します。3枚の写真は撮影された写真例です。あくまでプロトタイプなので、粗く表示されているかと思います。

図3

消毒当番ボット

　この記事を書いている現在、新型コロナウイルスの感染が広がっています。これを受けて、当オフィスでも感染を予防する対策をとりました。社員がよく触れるような場所、例えばドアノブといった場所を定期的に消毒しています。通常ならば、このような作業は単純な当番制で済ませればいいように思われますが、リモートで働く社員もいれば出社している社員もおり、スケジュールがごちゃごちゃしています。おまけに、人間は忘れっぽい生き物です。そこで、このような問題を解決すべく、当番が消毒を行ったか確認するツールが必要となりました。

　社員の一人が、当番に消毒を促すようリマインドを通知する社内用リマインダーを作りました（図4）。ただの通知ボットですが、多くの社員に重宝されています。このプロジェクトの良いところは、似たような通知ボットを作成するときに、車輪の再発明のようなことをせずに済むということです。

図4

最後に

　モルフォの様々な35時間ルールのプロジェクトを紹介してきました。我々の取り組みについて少しでもご理解が進めば幸いです。

　35時間ルールはつい3年前から始まりました。会社としても、社員がプロジェクトを始めやすくしたり遂行しやすくしたりできるよう、常にルールを見直して改正しています。この取り組みにより多くのリソースを割けるよう計画中であります。

　最後に一つだけ。会社が大きくなるにつれ、独立したプロジェクトの遂行が難しくなります。Googleは、20%プロジェクトで数えきれないほど多くの製品を世に送り出し成功したにも関わらず、数年前に中止しました。言ってしまえば、大企業ほどこのような取り組みでプロジェクトが成功してもインパクトが小さいのです。もし読者のみなさまが仕事中に自分のアイデアを試してみたり、スキルを磨いたり、変わったことがやりたいなら、モルフォへの入社を検討されてはいかがでしょうか。我々は通年採用を行っております！

参考文献

[1] Ryan Tate. The 20% Doctrine: How Tinkering, Goofing Off, and Breaking the Rules at Work Drive Success in Business. Harper Business, ISBN 978-0-06-200323-2

OJT2021：Vieureka を用いた三密判定と性格行動診断の同時推論「密カッター」

2021-08-17T11:04:46+09:00

こんにちは、リサーチャーの鈴木です。今年度の新人研修で、私達のグループは「密カッター」というシステムを開発しました。本記事では、このシステムの開発の目的、および、本システムで実装されている要素技術についてご紹介いたします。

本研修ではPanasonic様の提供するIoTカメラ「Vieureka*1」を使用しました。

「密カッター」による三密判定＋性格行動診断

新型コロナウイルスの感染防止対策として「三密防止」が重要であることは言うまでもありません。「人が多数集まる密集状態」「換気が悪い密閉空間」「間近で会話や発声をする密接場面」を常時監視することは、店舗運営等において望ましい環境作りとなります。さらに、今後はワクチン接種後に戻ってくる顧客の傾向をいち早く掴んでマーケティングに活用するチャンスと考えることもできます。心理学の分野では人の行動傾向が姿勢に表れるという示唆があります。このような心理学的研究をうまく活用することで、カメラの映像から適切なマーケティングにつなげられる可能性があります。

私達は、これらの課題に対して、「密集検知」「密閉検知」「密接検知」「性格行動診断」の４つの機能を、ＡＩ搭載の監視カメラVieureka上に実装しました。そして、新人研修の成果物として、これら４つの機能を備える監視システム「密カッター」を開発しました。

密カッターは、カメラ視野における人の密集度、会話ペア数、ドアの開閉時間、人々の性格傾向を可視化します。さらに、ＡＩによる自動監視システムという特徴を活用して、密カッターは音や光による三密の危険度の注意喚起や、性格傾向に合致した電子広告提示を、人の手を介さずに実行することができます。

密集検知

「画像中のどこに何があるか」を出力する物体検出は、深層学習が得意とするタスクの一つです。特に人間の検出に関しては研究が進んでおり、駅や商業施設など日常的な場面で実用化されるほど高性能なモデルが次々と登場しています。

狭い領域に人が多く位置する「密集」を検知するためには、分割した画像中の位置毎に人数をカウントするタスクを物体検出に追加することで実現可能となります。セキュアとモルフォが共同開発したSECURE群衆カウントソリューションは、画像中の領域ごとの人数をカウントし、混雑度を表示するソリューションを提供しています。

今回のプロジェクトでは、カメラと被写体がより近くに位置するシーンを想定しているため、エッジデバイスVieurekaで高速推論を行わせることを重視し、YOLOv3モデルによる物体検出に簡便な後処理を施すことで「密集」の検知を実現しました。さらに、Vieurekaカメラ上でのYOLOv3モデルの推論処理の高速化には当社製品である高速ディープラーニング推論エンジンSoftNeuro®を利用しました。

図１．密カッターによる密集検知

図１は、密カッターが密集検知を行っている様子を示す画面例です。図１のgif動画のように画面中の人を検出し、8分割した各領域に位置する人数が数値として表示されています。カメラと被写体の距離がこの程度（２～１０メートル）の場合YOLOv3モデルは誤検出や取り逃しのほとんどない推論が可能です。画像の分割数は実シーンに合わせた調整が可能です。

密閉検知

密閉回避による感染リスク低減のためには1時間あたり5分程度の換気が望ましいとされています。一般的に、小規模な店舗ではドアが換気経路であることから、本プロジェクトではドアの開閉による換気頻度をモニタリングする機能を開発しました。

具体的には、物体検知の深層学習モデルに「開いたドア」「閉まったドア」「半開きのドア」を区別して学習させ、未知の開閉状態を区別して検知させます。この深層学習モデルには密集検知と同じくYOLOv3を用いました。開閉状態を分類してドアを取り扱った研究は数少なく、学習済みのモデルもほとんど公開されておりません。今回はその数少ないドアのデータセットの一つであるDeepDoors2を用いて「開いたドア」「半開きのドア」「閉まったドア」の特徴をYOLOv3に一から学習させました。

学習後、当社オフィスのドア画像を用いてモデルの精度確認を行いました。結果としては、開いたドアの検出がよくできており、画像中24枚の開いたドアに対して、正しい検出(True Positive)が16枚、見落とし(False Negative)が8枚、誤検出(False Positive)が2枚でした。

しかし閉まったドアの検出の精度は悪く、画像中12枚の閉まったドアに対して、正しい検出は0枚、見落としが12枚、誤検出が43枚でした。

原因として、データセットと違い、オフィスのドアは周囲の壁と色が同じ（真っ白）であり、閉じた状態での検出が困難であったことが考えられます。閉じたドアを正確に検出するためには、それに見合ったデータセットでの学習が必須であることが分かりました。

反面、学習データセットと違う性質のドアであっても「開いたドア」の検出は十分な精度で行えることを実証しました。密カッターではこれを活用し、ドアが開いている時間を累積して換気時間を提供することで「密閉」検知を実現します。

図２．密カッターによる密閉検知

図２は、密カッターが密閉検知を行っている様子を示す画面例です。図２のgif動画のように開いたドアを検出した場合に換気が行われていると判断し、画像下部に1時間あたりの換気時間が表示されています。

密接検知

「間近で会話や発声をする密接場面」を判定するために、人と人が至近距離で向かい合う「向き合い検知」と、特定の方向からの音声を検知する「音源定位」の二つの処理を組み合わせました。

向き合い検知

剛体である顔の６自由度（３次元位置と３次元向き）推定によって顔の向きを検知する手法が提案されています。今回は見ている方向や目線の厳密な推定は不要なため、その中でも高速かつ高性能なimg2poseを採用しました。img2poseを用いて画像中の全ての顔について６自由度推定を行い、その後任意の２人ペアに対して向き合い判定を行います。

「向き合っている」というのは、「距離が近く、顔ベクトルが逆向きで対面している（背を向け合っていない）」という状況で定義できます。まず、両者の顔の大きさの比が±50%以下（奥行き方向で近接）かつ、顔６個以内の距離に位置していれば、「距離が近い」と定義しました。さらに、両者の顔の向きのベクトルの内積が負であれば、「逆向き」と定義し、最後に顔の向き方向に相手の顔が存在する場合を「対面」と定義しました。これら３つ全てを満たしたペアについて「向き合っている」と判定させています。

図３はこれらの状況を模式的に示しており、A、B、Cの場合は、いずれかの条件を満たしていないため向き合いと判定しません。Dの場合のみ、向き合いと判定しています。

図３．図中のAは顔ベクトルが同じ向き、図中のBは距離が遠く、図中のCは背を向けあっている

音源定位

単一のマイクではなく、複数のマイクロフォンで集音して到達する音の時間差を用いることで音源の位置を推定することが可能です。音源定位と呼ばれるこの技術は２０世紀から開発が進む汎用的な技術であり、Web会議用の指向性マイクやロボット開発などに活用されています^参考[1]。

今回はマイクが単一のVieurekaカメラに安価かつ簡便に音源定位を実装するため、こちらの記事を参考に、Sipeed社製のマイクロコンピュータMaix bitとそのアタッチメントである6+1マイクロフォンアレイを増設しました。

Sipeed社の公式ページからMaix bitに音源定位を実行させるプログラムをダウンロードすることができます。マイクロフォンアレイとVieurekaでは画角も分解能も全く違うため、両者の出力を合成するための校正実験を行いました。

VieurekaカメラとMaix bitで得られた向き合い検知と音源定位の両方の出力を用いることで、「密接な会話」を自動検知し、そのペア数を提示するシステムの開発に成功しました。

図４．密カッターによる会話検知

性格行動診断

「性格行動診断」は、姿勢と心理状態の関連性を利用し、カメラ画像に映る被写体の心理的傾向を計測する機能です。

心理学的研究として、姿勢は身体の状態だけでなく精神状態をも表し、性格の一指標になりうるものとする説があります。先行研究^[2]では、被験者の映った画像から客観的に評価した姿勢とストレスに対する８つの対処傾向（肯定的解釈、カタルシス、回避的思考、気晴らし、計画立案、情報収集、放棄・諦め、責任転嫁）を示すTAC-24尺度との相関を調査し、首の角度と心理学的傾向が関連することを示しました。

今回はこの研究から着想を得て、深層学習を用いてカメラに映る人物の姿勢情報を取得し、心理学的知見から人々の消費行動傾向を提示する「性格行動診断」の機能を開発し、密カッターに実装しました。

当社社員を対象として写真一枚とアンケートの収集を行い、性格を示す尺度であるBig Five、ストレス対処法を示すTAC-24、さらに消費習慣や生活習慣のデータと姿勢の相関を調査しました。

結果として、首を右に傾ける人ほど調和性（思いやりがあり協力的）が高くなるという有意な相関結果が得られました。さらに首を左に傾ける人ほど外向性が高く、衝動的な購買に対する抑制傾向が強く、毎月の運動回数は少ないという結果が得られました。なお、左右は被写体本人から見た向きを基準としています。

姿勢推定には当社製品のMorpho Pose Estimator™をVieurekaカメラに組み込みました。Morpho Pose Estimator™は深層学習を利用した人体姿勢の推定技術であり、18か所（鼻・眼・耳・首・肩・肘・手首・腰・膝・足首）の特徴点の検出を可能とします。当社の高速推論エンジンSoftNeuro®の技術も利用することで、エッジデバイスであるVieureka上での推論を可能としました。今回は検出された特徴点のうち、両肩と鼻の位置を利用することで先行研究[2]において用いられた首の角度を計算します。

「密カッター」では画像中の人物の首の角度を計算し、右に傾ける人が多ければ「調和性が高い」、左に傾ける人が多ければ「消費抑制傾向が高い」と表示します。下処理として、動き回っている人や横を向いている人は首の角度が安定しないため判定からは除外しています。

下の画像ではテストのため首の傾きを意図的に変え、密カッターが正しく性格行動傾向を出力することを確認しました。

図５．密カッターによる性格行動分析

将来的には駅や大型施設にいる人の性格行動傾向を診断し、最も多い顧客層を把握することで最適な電子広告のリアルタイム表示を行うことを想定しています。

まとめ

今年の新人研修において、「密集」「密閉」「密接」の検知、および、「性格行動診断」の４機能を盛り込んだ「密カッター」の開発を行いました。これらの機能に必要な、混雑検知、ドア開閉検知、向き合い検知、音源定位、首の角度判定、心理学的特徴の判定といった要素技術をVieureka上に実装しました。

本プロジェクトでは、緊急事態宣言が発令されていたため、リモートワークでシステム開発を進めたという経緯があります。そのため、実機での試験がなかなかできないという苦労がありました。出社時にまとめて実機の性能試験を行ったところ、カメラの設定等で想定外のエラーが何度も発生してしまい、実験撮影開始までに想定を大きく超える時間を要してしまいました。

一方、うまくいったところもありました。チームメンバーのほとんどが初めてGitHubを利用したのですが、Issuesの管理などの機能を活用することで、効率的なチーム開発につなげることができました。その他、音源定位に用いる機器の選定、購入、初期設定、校正、実装までの一通りを２か月という短期間で達成できたことは誇れる成果であると自負しています。

本プロジェクトでは「人の役に立つものを作りたい」という思いを形にするべく、要件定義から技術調査、開発までを新人チームで完遂し、「新しい製品を作る喜び」を強く体験することができました。この喜びを胸に、本プロジェクトを通して得られた経験・スキルを今後の業務に活かしていきます。

[1] 浅野太　”音のアレイ信号処理 -音源の定位・追跡と分離-"　音響テクノロジーシリーズ　コロナ社

[2] 内田, 森川　"姿勢とストレスコーピングとの関係 : TAC-24との比較から"　九州産業大学国際文化学部紀要九州産業大学国際文化学部紀要 (57), 127-140, 2014-03 九州産業大学国際文化学会 http://54.64.211.208/dspace/bitstream/11178/102/1/kokubun57-6.pdf

*1:「Vieureka」および「Vieureka」ロゴはパナソニック株式会社の登録商標です。

OJT 2021 : Vieurekaを用いた駐車可能位置案内システム

2021-08-04T12:06:25+09:00

　はじめまして、リサーチャーの木村と申します。私は本年4月に新卒としてモルフォに入社しました。

　今年の新人研修（OJT）において、私たちのチームは2ヶ月にわたってPanasonic様が提供するVieureka¹というエッジデバイスを用いたアプリケーション開発を行いました。私たちのチームは、Vieureka を使った駐車可能位置案内システム ( Camera based Parking Guidance System ) を開発しました。この駐車可能位置案内システムは、Vieureka で撮影した駐車場の画像から車両検出により駐車場の空き状況を分析してWeb 上に簡易駐車場マップを表示し、駐車可能な位置の情報を提供するというものです。

　この記事では、このシステムを開発するに至った動機やシステムに使用している技術などについて紹介します。

駐車場での混雑を解消できないか?

　車で大型施設に訪れた際に駐車場が混雑して、中々駐車できる場所が見つからないことは誰しもが経験したことがあると思います。このような場合に駐車場を回ってタイミングよく空いている場所を探す必要があり、時間もかかってしまい、環境にも良くないため、本OJTではよりスムーズな駐車を促す事ができないか検討しました。

既存の駐車案内システム

　現在でも既にスムーズな駐車を促す取り組みは行われていて、一般的なものにはバリアゲートによる駐車場内の管理があります。しかし、これは駐車場内の車の数は管理できますが、空いている駐車位置までは把握する事ができません。空いている駐車場を把握する方法として、駐車位置ごとにセンサーを配置するという方法も考えられますが、導入コストが高額になってしまいます。そこで私たちのチームは監視カメラで駐車場を撮影して、駐車場の状況を把握することでより導入コストの低い駐車案内システムを構築することを目標に開発に取り組みました。

開発に使用した機材

　VieurekaはPanasonic様が提供するエッジAIカメラデバイスです。カメラで撮影した映像をAI技術を用いて解析し、来客の分析や商品棚のモニタリングを行うことで必要な情報を提供することができます。今回のOJTではVieureka（VRK-C301）を用いて駐車場内の車を検出することで、駐車状況を分析します。

tech.panasonic.com

Vieureka (https://tech.panasonic.com/jp/bi/vieureka/camera.html)

　また実際の駐車場を利用して開発を行う事は難しかったため、駐車場を模したシートとミニカーを用いてシステム開発と動作テストを行いました。

簡易駐車場

システム構成

システム構成図

　本システムは以上のような構成となっています。事前準備として、設置したVieurekaで撮影した画像から駐車枠の座標とIDの記録し、簡易駐車マップとの対応付けを行います。こちらの作業を簡単に行えるように、駐車枠選択用のGUIを作成しました。設置した場所から撮影した駐車場画像を読み込み、駐車場のIDと任意の四点の座標を選択することで、駐車枠とIDを記録したファイルを生成します。

駐車枠選択GUI

　次にWeb上で表示するための簡易マップの作成を行います。ここでは簡易マップ作成用のサイトを用意して、先ほど記録した駐車場に合うように行と列を追加し、当てはまる場所にIDを入力することで簡単に駐車枠とIDを対応付けたマップファイルを作成可能です。また、駐車場の出入口も指定可能なため、どの向きのマップであるかを分かりやすく表示することも可能です。

簡易マップの作成

　最後に先ほど作成したマップファイルを読み込み、リアルタイムでのマップ更新を行います。以下の画面が今回表示する簡易駐車場マップの例です。赤が駐車中のスペース、緑が空いているスペースを示しており、対応するIDの駐車スペースの駐車状況が変化した時に、こちらの画面に反映されるようになっています。

簡易駐車場マップ

　メイン動作ではVieurekaを用いて撮影した駐車場の映像から車両検出を行います。その後、予め記録しておいた駐車枠と検出された車との重なり具合で駐車判定を行い、結果をWeb上に送信することで簡易駐車場マップを更新します。

　車両検出の方法として、昨今では深層学習による推論が高い精度を持つこと知られています。しかし、深層学習による推論には重い処理が要求されるため、VieurekaのようなIoT機器で一般的なフレームワークを動作させると処理時間が長くなってしまうのが現状です。そこで、今回はエッジデバイスやモバイル端末での深層学習モデルの推論を可能とする当社製品SoftNeuro^Ⓡを使用しました。これにより、Vieurekaに搭載されたCPU上でも実用的なフレームレートでの深層学習による推論が可能です。車両検出には高速な物体検出を可能とする物体検出モデルとして2018年に提案されたYOLOv3 [1] を採用しました。データセットは駐車場視点に適したデータセットを用意する事が難しかったため、今回は車を含め様々な物体が検出可能な公開データセットCOCOを使用して学習を行いました。以下の画像が今回用いたYOLOv3モデルでの車検出結果です。少し誤検出が生じてしまっていますが、このようにbounding boxで画像中の車を検出することが可能です。

車検出結果

　今回は、時間の都合上検出モデルの性能向上を断念しましたが現在はYOLOv3よりも性能が良い物体検出モデルも登場していますので、使用モデルや学習データセットを吟味する事で車両検出の速度、精度ともに改善が可能です。　

　車両検出を行った後は、検出されたbounding boxの中心がどの駐車枠の内側に含まれているのかを判定することで駐車されているかどうかを判定します。

システムの動作デモ

　こちらがシステムのデモ動画になります。駐車状況と合わせてマップが変化していることが分かります。今回は1920×1080のFHD画質で撮影しているため、推論時間を考慮して更新に数秒の間隔を空けていますが、実際の駐車場では秒単位での変化は大きくないため、現在の処理速度でも十分実用的です。処理速度が必要な場合は、検出モデルや入力画像の解像度を変更することでよりリアルタイムなマップ更新が可能です。

まとめ

　本OJTでは、Vieurekaを用いた駐車場可能位置案内システムの開発に取り組みました。本システムの課題としては、実際の駐車場を用いた動作テストを行う必要があること、複数のデバイスを連携してより広い駐車場でも駐車状況を把握できる機能を実装すること等が必要です。また、性能向上として検出精度改善のためのモデルや学習データの見直し、追加機能で車体番号や車種の識別機能の実装などが考えられます。

　最後に本システムの将来の展望として、現在は運転手に視覚的に空いている駐車位置を提供することが目的ですが、車のデジタル化が進むと自動運転技術との連携にも応用が可能で、マップを車に受け渡すことで運転手が何もせずとも最短で駐車が可能になることも期待できます。

参考文献

[1] Redmon, Joseph, and Ali Farhadi. "YOLOv3: An Incremental Improvement." arXiv:2804.02767 [cs.CV], Apr. 2018.

「Vieureka」および「Vieureka」ロゴはパナソニック株式会社の登録商標です↩

(文献紹介) Google の COVID-19 感染予測

2021-07-06T12:41:07+09:00

こんにちは、CTO室リサーチャーの富田です。モルフォでは論文紹介を持ち回りで行うジャーナルクラブという活動がありますが、画像処理に関する論文に限らず、担当者が興味を持ったテーマについて紹介することもあります。Google Cloudが昨年公開した COVID-19 感染予測(US版、日本版) は大きな話題になりました。そのホワイトペーパーである "Interpretable Sequence Learning for COVID-19 Forecasting" についてこのジャーナルクラブで発表したので、こちらでもご紹介します。感染者などの時系列推移を学習するだけでなく、疫学の専門家や意思決定者による学習結果の解釈のしやすさを重視した手法となっています。

このホワイトペーパーは機械学習のトップカンファレンスとして知られる NeurIPS 2020 にacceptされていますが、疫学における感染症の数理モデルを大枠としており、意外にも？機械学習的な部分は非常に簡素な作りです。そのため本記事・スライドの前半はその疫学の数理モデルの紹介*1、後半が本論文の手法の紹介となっています。

感染症の数理モデル

感染症は生活習慣病などと違い、病原体への曝露がないと感染しないのが大きな特徴です。人から人へ感染するような感染症では人と完全に接触を断てば感染しないわけですが、現実的にはそれはなかなか難しいものです。そのため感染症の流行はいくつかの仮定を置くことによって、数理モデルによるモデル化が行いやすいという特徴があります。

代表格と言えるのがSIRモデルです。これはあるコミュニティの全人口Nを、

感受性人口 (susceptible): 感染症にかかりうる人数
感染性人口 (infected): 感染しており、他人に伝染させうる人数
治癒人口 (recoverd): 感染から治癒して免疫を獲得した人数

の3つの区画に分け、それらの人数の時間変化を微分方程式でモデル化するものです。IがSへ感染させる割合を表す (感染率)、また感染した人がどれくらいの速さで治癒するかを表す (治癒率) の2つのパラメータを持ちます。非常に単純なモデルながら、局地的で短期的な流行の様子をよく再現することが知られています[5 §1.1]。

SIRコンパートメントモデル

(実際の式などの詳細はスライドや[4,5]などを参照ください。) これを数値的に解いた例が以下のグラフで、感染者数Iが流行初期には指数関数的に増加し、免疫を持たない人の割合が減るにつれてやがて勢いを落とし、最終的にある割合の未感染人口を残して終息するという挙動を見ることができます。

SIRモデルの数値計算結果例

このような感染流行がそもそも発生するかどうかの条件を与える基本再生産数という量、またどれだけの割合の人がワクチンなどで免疫をもてばこのような流行が発生しないか(集団免疫閾値)、などの量をモデルのパラメータから計算することができます。

このモデルに潜伏期間に対応するEを付け加えたSEIRモデルというものも基本的なモデルとなっており、潜伏期間Eの間は他者へ感染させないという効果を織り込んだものとなっています。現実のデータを解析する際、最近では少なくともSEIR型へ改良したタイプのモデルを用いることが必須となっているようです[5 §2.4]。

SEIRコンパートメントモデル

SIRモデル、SEIRモデルのような人口を区画に区切った感染症数理モデルはコンパートメントモデルと呼ばれ、感染症数理モデルの基本とも言えるものです[4]。

Googleの感染者数予測モデル

Googleの感染者数予測モデル[1]はSEIRモデルをさらに拡張したものです。例えば感染者のうちでも診断で発見されているかどうかで区分したり、入院状態などを含んだり、再感染の可能性を持つなどしたコンパートメントモデルとなっています。ただしその内部のパラメータなどが固定値ではなく、共変量(人の移動量や地域人口など)の関数として表されるようになっています。

Google感染者数予測のコンパートメントモデル ([1] Fig.2 より引用)

本手法の機械学習部分は、この

共変量の時系列予測
共変量からパラメータを求める関数の関数形

の2箇所に絞られており、またそれらも非常にシンプルな作りとなっています。これによって政策決定者や疫学の専門家が学習結果のパラメータなどを調べ、何が感染拡大に寄与しているのかを検討することができるようになっています。

しかしモデルを少しでも柔軟にすると容易にオーバーフィットするなど、様々な苦労があるようです。

詳細は以下のスライドや[1]をご覧ください。

Interpretable Sequence Learning for COVID-19 Forecasting by @Morpho

スライド前半で触れている数学セミナー2020年9月号の特集「新型コロナウイルスと闘うために数学にできること」([4])ですが、この特集部分を抜粋したKindle版も販売されているようなので、興味のある方はこの特集タイトルで検索していただくと良いかと思います。また「感染症の数理モデル増補版」([5])についても最近は在庫が復活したようですので、特集を読んでさらに興味を持った方は見てみるといいのではないでしょうか。

参考文献

[1] S. O. Arik et al., “Interpretable Sequence Learning for COVID-19 Forecasting,” arXiv:2008.00646 [cs, stat], Aug. 2020. http://arxiv.org/abs/2008.00646
[2] Z. Qian, A. M. Alaa, and M. van der Schaar, “When and How to Lift the Lockdown? Global COVID- 19 Scenario Analysis and Policy Assessment using Compartmental Gaussian Processes,” arXiv:2005.08837 [physics, stat], Jun. 2020. http://arxiv.org/abs/2005.08837
[3] E. Drysdale, D. Singh, and A. Goldenberg, “Forecasting Emergency Department Capacity Constraints for COVID Isolation Beds,” arXiv:2011.06058 [cs], Nov. 2020. http://arxiv.org/abs/2011.06058
[4] 数学セミナー2020年9月号. 日本評論社, 2020.
[5] 稲葉寿, 感染症の数理モデル, 増補版. 東京: 培風館, 2020.

*1:この部分についてはなるべく元の文献に沿う形にした上で他の文献にもいくつか当たるなどして正確を期す努力はしていますが、私は疫学のバックグラウンドはない(物理が専門でした)ことをお断りしておきます。

Morpho's 35-hour Projects

2021-05-25T10:00:05+09:00

Hi everyone! I am Chamin, a senior ~~boffin~~ research engineer from Morpho's CTO Office. In this post, I will introduce Morpho's way of letting its members do their own fun projects during work time.

At Morpho, our designated work time is seven hours a day (averaged over the month). Depending on the number of working days in a month, this can result in up to 161 hours a month. Any full-time worker at Morpho is allowed to use up to 20% of this time on a personal project. So long as the project is somehow related to Morpho's business scope, any project idea is fine. If the project needs a bit more time, additional time can be used so long as the total does not exceed 35 hours a month (hence the name, the 35-hour project). Using company resources is fine, as long as it does not delay actual business work. We launched this initiative in 2018 for only the technical staff, and later expanded it to include all regular staff.

This is not exactly a new idea. I am sure most of you are going to say "Oh, like Google's 20% Project". At the turn of the century, Google allowed its workers to pursue personal projects using up to 20% of their paid work time. However, the concept has its origins at 3M, the company that is well-known for inventing the post-it note. Since 1948, 3M has made it mandatory for employees to use 15% of their work time for independent projects. Several other companies ran, or still have similar projects. Microsoft's Garage, Yahoo's Hack Day, Atlassian's 20% projects, and Apple's Blue Sky are some examples.

This is getting crowded, isn't it? There is even a book written about this kind of initiatives, if you want to read more about them.

Motivation

Now, each company above has (or had) its own reasons for launching such initiatives. Let me describe our objectives in launching the 35-hour rule, and how it has benefitted us (Morpho and its workforce).

The first reason for launching this initiative is to promote innovation. As a software vendor focusing on software for mobile devices, we can't just sell software and wipe our hands off. Long term support of products, and improvements to match advances in hardware, are critical. We spend a considerable amount of time and effort to support our customers so that our software works the same or better on their newer products. The downside of focusing on support is that there is less motivation to pursue large projects based on new ideas. Personal projects allow workers with innovative ideas to start small, create proof-of-concept prototypes and share them with others. This gives us a wider range to choose from, when deciding on new products to develop. Since the company can pull up a personal project and base a product on it, the 35-hour projects are also called pull projects.

The second reason is to provide our members with an opportunity to enhance their skillsets. Assume that you are an engineer at Morpho and you work on our AI products. No doubt, you are already good at machine learning and related skills, and you get a chance to apply and improve them on the job. However, if you want to add computer graphics to your skillset, your work is unlikely to provide that opportunity. Starting a personal project that involves computer graphics will allow you to do that, during company time. And Morpho does not lose anything when employees acquire skills that are less related to their current work. Both technology and technical trends change rapidly, and it's hard to predict what the next product or feature requested by a client is going to be. It's quite common to have some company contact us and ask whether we can develop something to solve a particular problem. When that happens, having well-rounded workers is going to make it easier for us to accept a new challenge and develop a product quickly.

There is one more reason that sounds less fancy, but is equally important. Personal projects are a great way to solve small problems in the work environment, thereby improving everyone's productivity. While our management does its best to provide us a good work environment, not all tools that we can buy are perfect. To take an example, if one of us creates a tool that can annotate a single photo a few seconds quicker than what we have now, that's going to translate to hours of time saved for more important work in the long run.

Show and tell

Alright, so what happens after everyone starts his/her project? About once a year, Morpho organizes a presentation session for these projects. Those who completed their projects, and also those who want to get feedback or help, present their projects in this session. The session is open to everyone in the company, so everybody gets to see the projects. The presentations are free format, and can take anything between two to fifteen minutes.

What's next?

The business divisions, and the business development division, take a good look at the projects and pick up projects that can be converted to products. We already have a couple of such products under development. We also get to know more about the skills of our colleagues. If a project is interesting, others may join it.

You might have guessed this. Given that we do a lot of AI projects, it is common to use the presentations to get help for collecting data.

Examples

Here are a few projects from past presentation sessions. These will give you an idea of the choices, motivation and also the outcomes of these projects. Sorry that I can't include details of projects that got picked up for further development, but these examples are sufficient to give you an idea.

1. USB depth camera with AI

This is one of my own projects. In a previous project, I designed a small robot that used a camera to detect obstacles and avoid them as it moves. The robot's computer was a Rasberry Pi 3 Model B. My approach to obstacle detection was to use the camera to capture images, estimate scene depth, and adjust the robot's path to avoid nearby objects. Now, there already is a lot of research on Single Image Depth Estimation, and I could easily get working code from Github. However, I ran into a different problem while deploying that on the robot. The Raspberry Pi was already occupied with other tasks -including robot navigation- and depth estimation was too much work. Looking at it more broadly, this problem is not unique to my project. There are many small devices (robots, drones etc.) that do not have enough processing power for computer vision tasks.

There are two common approaches to solve this problem. A brute force solution for this problem is to add more processing power to your robot. But in practice, this is not always possible, especially if the robot is an off-the-shelf device. It is also possible to send the images out and get depth estimation done in another computer. But that requires networking, which might be unavailable or slow.

I wanted to investigate a third approach. If I could make a USB camera that sends depth images to the robot, it does not have to use computing power to estimate depth. USB ports and support for USB cameras is available on many small computers, so such a camera can be used in many applications. I thought of doing this as an independent project.

The technical details of the project needs its own blog post, so I will skip that. To summarize, I made my first prototype with a Raspberry Pi Zero, Raspberry Pi Camera Module, and a dummy surveillance camera. With a few additional electronic components, I could prototype a camera that can send either photos or Depth, or even both to the robot while connecting it with just one USB port. Figure 1 shows the schematic of the hardware design. You can see the actual camera with sample images, in Figure 2.

Figure 1

Figure 2

2. A 3D space viewer for a VR headset

This project was carried out by a member of Morpho's CTO Office. The idea was to integrate computer vision and motion sensing technologies to create a virtual space that can be experienced using an Oculus Quest 2^® VR headset. About 100 still images from an indoor scene were used to create a 3D model of the scene. Orientation and motion sensors of the headset were used to render the VR experience. Figure 3 shows a view rendered from the model of the 3D scene, with three of the photos. You will note that it is somewhat sparse; but hey, this is a prototype.

Figure 3

3. Reminder bot for disinfecting activities

With the COVID-19 pandemic (ongoing at the time of writing), we took several steps to reduce the possibilities of infection within our premises. One such step was to regularly disinfect objects that people touch often (for example, door handles). In an ordinary situation, it is easy to create a round-robin schedule to do something like this. However, some of us were working remotely for a certain number of days, and that could also change at short notice. And there is that human element; we sometimes forget. So, we needed to make sure that disinfecting gets done despite all these limitations.

One of our colleagues created a reminder bot that integrates information from several in-house tools, to pick and remind members when it is their turn to do the disinfecting (Figure 4). Right, that's not rocket science. But then, it is a small project that helped a lot of people. And the best thing is that now we do not have to re-invent the wheel when we need to automate something; we have a good template to begin with.

Figure 4

Finally...

So, that was my attempt to introduce Morpho's 35-hour projects. I hope you now have a rough idea of how we do it.

The 35-hour rule has been there for only about three years. Morpho has been continuously monitoring and updating the rules, to ensure that the employees are comfortable with starting and carrying out new projects. We are also planning to provide more resources for such projects.

One last thing before I wind up. When companies grow bigger, it gets harder to keep independent project initiatives. Google officially ended the 20% project initiative a few years back, despite the large number of successful products that came out of it. Further, the impact of a successful project gets much lower when it comes to a larger company. If you want to take some time to try your own idea while working, improve your skills, and make a difference, may be you should consider that as one more motivating factor to join Morpho (yes, we are hiring!).

Reference

[1] Ryan Tate. The 20% Doctrine: How Tinkering, Goofing Off, and Breaking the Rules at Work Drive Success in Business. Harper Business, ISBN 978-0-06-200323-2

（文献紹介）デブラー手法の紹介

2021-04-05T11:10:04+09:00

こんにちは、CTO 室リサーチャーの三宅と申します。モルフォでは、学術論文の輪講を行う「ジャーナルクラブ」という有志による活動があります。今回は、このジャーナルクラブで発表した内容をご紹介いたします。

イメージセンサーの露光中にカメラが動くことで、写真がボケてしまうことをモーションブラーといいます。モーションブラーは、スマホを手持ち撮影すると日常的に生じてしまう現象です。光学的な解決策のひとつとして、シャッタースピードを速くして露光時間を短くするというのがありますが、露光量が減るため今度はノイズが目立ってしまうというトレードオフがあります。したがって、画像処理によってモーションブラーを除去（デブラー）し、写真をきれいにする手法が必要になります。今回紹介するのは、古典的なモーションブラーモデルを変分ベイズによって解くことで、１枚の入力画像からデブラーを実現する手法 [1] 、そして、複数フレーム画像（動画）を入力として、より精度よくデブラーする深層学習モデルを使った手法 [2] です。

[1] Fergus, Rob, et al. "Removing camera shake from a single photograph." ACM SIGGRAPH 2006 Papers. 2006. 787-794.

[2] Zhong, Zhihang, et al. "Efficient spatio-temporal recurrent neural network for video deblurring." European Conference on Computer Vision. Springer, Cham, 2020.

デブラー手法の紹介 by @Morpho

Removing camera shake from a single photograph

モーションブラーの古典的なモデルは、観測画像、潜在画像（ボケのない未観測画像）、ブラーカーネルによって記述されます。ブラーカーネルが未知の場合、観測画像という”情報が失われた”入力から、潜在画像とブラーカーネルの両方を推定するという、一見無茶な問題を解かなくてはなりません。本論文では、潜在画像とブラーカーネルに適切な（そして強い）事前分布をおき、ベイズ的に問題を解決しています。しかし、古典的なモデルの限界として、モデルの仮定にそぐわない設定では、アーティファクトが生じることで潜在画像の復元に失敗してしまう点が課題です。この課題は、以降の研究でモデルを拡張する（例えば、ブラーカーネルをセグメントごと・ピクセルごとに求めるなど）ことで解決が試みられています。

Efficient spatio-temporal recurrent neural network for video deblurring

こちらは設定が変わり、入力が複数フレームになります。デブラーしたい画像の前後の画像を使えるので、推定問題はより易しくなったといえます。この手法では深層学習モデルを用いており、古典的なデブラーで見られるアーティファクトを生じさせないという点で、実用的な手法です。SOTA 精度を達成しながら、アテンションモジュールのアイデアを効果的に用いたことで従来手法よりも軽量化されています。また、提案されたモデルそのものだけでなく、ビームスプリッターという装置を用いて独自にリアルデータセットを取得している点も、面白い内容となっています。

画像分類タスクにおける半教師有り学習第2回

2021-02-15T09:59:57+09:00

こんにちは、モルフォリサーチャーの芳賀です。

1回目の記事では半教師有り学習の概要に始まり、ラベル有りデータとラベル無しデータを一度に学習に組み込むone-stage学習に焦点を当て、基本コンセプトである「consistency regularization」「entropy minimization」について具体的な手法を交えて紹介しました。

techblog.morphoinc.com

2回目の記事では最近に至るまでの数々の手法について紹介します。

Temporal Ensembling
- 手法の説明
- 実験結果
Mean Teacher
- 手法の説明
- 実験結果
Virtual Adversarial Training (VAT)
まとめ
参考文献

Temporal Ensembling

前回の記事ではconsistency regularizationの例としてΠ-modelを紹介しました。 Π-modelでは同じ入力画像を2回ネットワークに流して得られた出力同士のMSE（平均二乗誤差）をunsupervised lossとして学習に組み込んでいました。

Temporal Ensembling[1]はΠ-modelを処理速度とノイズ耐性に関して改良した手法です。処理速度に関しては、2回ネットワークに流すうちの片方を1つ前のエポックで出力された結果を活用するということで約2倍高速化させています。ノイズ耐性に関しては、上記の1つ前のエポックで出力された結果を指数移動平均で更新するというやり方を用いています。

手法の説明

以下のΠ-modelとTemporal Ensemblingのフローの比較図を踏まえて、もう少し具体的に見ていきたいと思います。

[1]Figure.1より引用。

インデックスの入力に対しネットワークに流して得られた出力まではΠ-modelと同様ですが、MSEを取るもう片方のは1つ前のエポックにおける同じ入力に対応する出力から以下のように更新されます。

は中間変数で、は指数移動平均の係数になります。 2行目ので割っているものはの初期値のバイアス補正によるものです。はゼロベクトルで初期化しますが、最初の更新（）では式を見ると初期値の影響を無視するようにとなっていることがわかります。学習が進むとは1に近くなっていって指数移動平均の効果が支配的になっていきます。この補正はOptimizerで有名なAdamでも使われています。

以上の変更によりΠ-modelと比較し高速かつノイズに強い学習ができますが、以下のようなデメリットも挙げられています。

入力画像ごとにネットワークの出力を保持するメモリが必要
指数移動平均のハイパーパラメータが追加

1つ目に関して例えばデータ数10万、分類クラス100の設定の時、出力を64ビットfloatで保持するとして、100000 * 100 * 8 ~ O(100MB)程度のメモリが必要となることから、学習の規模が大きいと厳しい制約になることがわかります。

実験結果

実験ではCIFAR-10, CIFAR-100, SVHN*1のデータセットを用いています。

ここではCIFAR-10の結果を紹介します。

[1]Table.1より引用。CIFAR-10による誤分類率の結果。各列は50000個のデータのうちラベル有りデータの数を変えて学習させた結果。誤分類率のばらつきは乱数シードを変えて10回学習させたときの標準偏差で求めている。

CIFAR-10では50000個のデータのうち4000個のラベル有りデータを用いた学習に対し、今回の手法では誤分類率12.16%を達成しており、既存手法の結果と比較してもその有効性が確認できます。また、データ拡張を入れたことで4%程度誤分類率が下がっており、改めてデータ拡張の重要性がわかります。一番右列は全てのデータにラベルを入れて学習させた結果ですが、既存の教師有り学習の結果と比べて良い精度が出ており、教師有り学習においてもconsistency regularizationの考え方は有効であることがわかります。

Mean Teacher

Temporal Ensemblingは入力に対する出力を過去のエポックにわたり指数移動平均させたものをunsupervised lossに組み込む手法でした。しかしの更新間隔は1エポックであるため、大きいデータセットの学習では非効率であるという問題点が上げられています。

ここで紹介するMean Teacher[2]はこの問題点を克服すべく、ネットワークの重み自体を指数移動平均で1イテレーションごとに更新するという思い切った手法を提案しています。

手法の説明

以下のMean Teacherの概略図をもとに説明したいと思います。

[2]FIgure.2より引用。

Mean Teacherではstudent modelとteacher modelというものを用意しています。以下の手順に沿ってイテレーションを回します。

入力データをstudent, teacher両方のモデルに流す
入力がラベル有りの場合は出力と教師ラベルとのロスを計算する
student modelの出力とteacher modelの出力のconsistency cost（consistency regularizationと同義）を計算する
2と3のロスにより誤差逆伝搬でstudent modelの重みを更新する
teacher modelの重みを指数移動平均を用いてstudent modelの重みで更新する

Temporal Ensembling同様かなりシンプルな手法であることがわかります。最終的に推論に使うネットワークはteacher modelを使います。

これにより、既存手法と比較し以下の恩恵が得られます。

1イテレーションごとに学習のフィードバックがかかるため*2、teacher modelの推論結果の精度が高くなる
大きなデータセットに対してもオンラインで学習できる

実験結果

CIFAR-10のデータセットを用いた実験結果は以下になります。

[2]Table.2より引用。表の見方は前節の表と同様。上段4つは既存提案手法の論文からの参照値、下段は著者環境で再構築したモデルで学習させたときの結果を表している。

CIFAR-10において、ラベル有りデータが50000個中1000個というより少ないラベル数の設定での学習で、既存手法より6%程度低い誤分類率を達成しています。

ハイパーパラメータである指数移動平均の係数（0～1）ですが、実験では学習初期は0.99に設定し、学習が進むにつれて0.999まで徐々に上げていく戦略がうまくいくと報告されています。これは、学習初期はstudentの精度がどんどん改良していく段階でなるべく新しく学習した重みを重視するようteacherに更新するようにし、学習が成熟した段階で長いスパンでの平均的な重みをteacherに保持させるためという理由から納得できます。

Virtual Adversarial Training (VAT)

今回最後に紹介する手法は正則化に焦点を当てたVirtual Adversarial Trainingというものになります。端的に言うと、入力画像に対し分類器としてのネットワークの出力がもっとも揺らぎやすい方向のノイズを付与しても分類結果が変わらないように制御する学習手法です。つまり、半教師有り学習の設定でいうと上記のノイズを加えた入力と加えない生の入力との間でconsistency regularizationを考える手法になります。

この「出力がもっとも揺らぎやすい方向」をどう考えるかを含めて、まずはAdversarial Trainingから説明したいと思います。

Adversarial Training

入力画像にガウシアンノイズを付与するデータ拡張において分類ネットワークの汎化性能は向上しますが、ある特定の方向に対する弱いノイズに対しては予測結果が揺らぎやすいという性質が報告されています。[4] いわゆるadversarial attackというもので、以下のように汎化性能の高いモデルであっても人間の目には検知できない特定の方向（adversarial direction）の弱いノイズが付与された入力に対しては異なる推論結果を出してしまうという例で有名です。

[4]のFigure.1より引用。パンダの入力画像に対し57.7%の信頼度で当てるモデルでも、ロス関数の(入力に関する)勾配方向の符号で決めたノイズを微小に同じパンダ画像に加えると、人間には見分けがつかなくても先ほどのモデルでは99.3%の信頼度でテナガザルだと誤って推論してしまう例。

Adversarial Trainingはこのadversarial attackに対する処方として考案されたもので、adversarial directionのノイズを付与させても出力が教師ラベルのそれと近くなるように学習させる手法になります。

adversarial trainingでのロスは以下で定義されます。

がラベル有りデータ、が教師ラベル、がネットワークの重み、は分布間の距離でここではcross entropyを想定、が考えうるノイズの絶対値、がadversarial directionのノイズとなります。また、が入力に対するネットワークの出力（ベクトル）で、が教師ラベルのベクトルになります。

を求める必要がありますが、そのままでは解析的に書けないので以下の近似を施します。

を教師ラベルのone-hotベクトルとみなす
を変数としての一次近似を施す

以上によりcross entropyの勾配を用いてを計算することができます。

Virtual Adversarial Training

virtual adversarial training[3]は先ほどのadversarial trainingを半教師有り学習に応用させた手法になります。

consistency regularizationの考えを踏まえて、(1)式(2)式に対し

ラベル有りデータ → ラベルの有無に関係しない入力
真のラベル分布 → 現在のネットワークの出力

のように置き換えると以下のようになります。

は現時点でのパラメータをfixしたものを表します。このがvirtual adversarial perturbationの定義です。 virtualという名前はラベル無しデータの真のラベル分布を仮定するという意味合いで名づけられているそうです。 LDSと書いたロスを下げることは各データ点周辺のラベル分布を滑らかにする効果があり、consistency regularizationに対応するものとなっています。

そして、の求め方ですが様々な近似を適用することで以下のの方向の勾配を用いて表すことができます。ここでは近似の詳細は省略しますが、論文には数学的に議論されているので気になる方はそちらを参照してください。

はランダムな初期値ベクトル*3、は微小な係数です。

学習ではLDSのネットワークの重みに関する勾配を知りたいので、アルゴリズムとしては以下のように求めることができます。

入力を選ぶ
ランダムな単位ベクトルをi.i.d.ガウシアンからサンプリング
のに関するにおける勾配を求める
方向の大きさのベクトルとしてを計算する
にを代入しパラメータに関する勾配を求める

最終的なロスとしては、上記をミニバッチで平均したものと教師有りロスを足したものになります。

以上がvirtual adversarial trainingの手法になります。

実験結果

ここでも概要のみになりますが、CIFAR-10とSHVNでの結果を見てみます。

[3]Table.5より引用。SVHNとCIFAR-10においてデータ拡張を入れて学習させた誤分類率の結果。はラベル有りデータの数を表す。下から二行目が今回の手法VATの結果、最下行はVATにEntMinという別の手法を組み合わせた結果。

既存手法（Temporal Ensembling）と比較して精度が改善もしくは同程度であることがわかります。

以下は実際に入力から計算されたノイズを入力に施したサンプルになります。

[3]Fig.5の一部より引用。

パラメータであるを増やすとノイズの強度や範囲が画像の重要な部分を中心に大きくなっていくことがわかります。大きなノイズをかけすぎると不自然な入力になってしまうため、論文ではそれぞれのデータセットで真ん中の列の程度の強度を採用しているようです。

まとめ

今回はTemporal Ensembling, Mean teacher, VATという半教師有り学習に関する手法を紹介しました。指数移動平均をうまく使ったりadversarial trainingの知見を生かしたりと、個人的に調べていて興味深かったです。

次回はMixMatch, ReMixMatch, FixMatchという2019年以降に発表された一連の手法について紹介したいと思います。

参考文献

[1] Laine, Samuli, and Timo Aila. "Temporal Ensembling for semi-supervised learning." arXiv preprint arXiv:1610.02242 (2016).

[2] Tarvainen, Antti, and Harri Valpola. "Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results." arXiv preprint arXiv:1703.01780 (2017).

[3] Miyato, Takeru, et al. "Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning." arXiv preprint arXiv:1704.03976 (2017).

[4] Goodfellow, Ian J., Jonathon Shlens, and Christian Szegedy. "Explaining and harnessing adversarial examples." arXiv preprint arXiv:1412.6572 (2014).

*1:street view house numbers。住居看板の数字データセット。画像中央の数字を当てるタスク等に使われる。

*2:Temporal Ensemblingも重みの更新は1イテレーションごとでしたが、1エポック前の出力でロスを計算していたため遅いフィードバックとなっていました。

*3:ランダムな単位ベクトルで問題ないかと疑問を持たれる方がいると思います。近似の中で本来はで反復的にを方向に調整していくのですが、実験では1回の反復で十分な精度が得られるためこの形式になっています。

Oculus Quest の Passthrough+ (疑似視点合成) の仕組み

2021-01-18T10:01:50+09:00

CTO室で研究開発を担当している松尾と申します。今回はいつもと若干毛色を変えて Virtual Reality (VR) 関係のトピックを紹介します。

撮影された画像から復元された弊社の休憩スペース

Oculus Quest 2

昨年 Oculus Quest 2 が発売されたこともあり、VR関係のトピックが大変盛り上がってきています。

Oculus Quest 2 はスタンドアロン型のVRヘッドマウント・ディスプレイであり、スマートフォンの SoC として定評がある Qualcomm 社の SoC Snapdragon XR2 が採用されています。特徴としてはリアルタイムで動作する SLAM を搭載していて数m x 数m のスペースを動き回ってプレイすることが可能です。またディスプレイサイズは片目 2K と十分な解像度を備えています。ハードウェア・機能的にも高機能にもかかわらず安価で提供されているため大変魅力的な製品になっています。（同等性能の携帯 (SoC Snapdragon 865) と比べても半額程度に安価）

弊社でもこのデバイスに注目していてプル型開発プロジェクト（社員が自発的に研究活動するプロジェクト）でもデバイスを購入して色々な技術を開発したり試したりしています。(とうとう個人でも買ってしまいました。。)

デバイス上で開発する以外にも内部システムとして興味深い物が含まれています。

一つは Oculus Insight の機能です。これは外部センサの類を一切置く必要がない SLAM (自己位置推定とマップの更新を同時に実行する) システムです。実際に試してみた感想としてはVRの利用に耐えうる90Hzでの推定が可能、同じ場所を再度認識する能力が高いなどの点で素晴らしいと思いました。 Oculus のホームページによると複数のIMU＋カメラと運動予測で対応しているとありその動作原理は大変気になります。

他に興味深い機能として Passthrough+ [1] があります。これは設定した移動可能エリアの外に出るとカメラ映像が表示されて周囲の状況が分かる機能です。一見外部カメラの映像をそのままディスプレイに出しているだけだと思われるのですが、実際には違う場所にあるカメラ映像を合成してヘッドマウントディスプレイに表示する機能になっています。今回の記事ではこの機能の動作原理について論文を踏まえて紹介します。

視点合成

近年視点合成（複数のカメラから撮影された画像の合成）はホットなトピックになりつつあります。 NeRF [2] は昨年発表された論文で Radiance Field を CNN で表現してそれを最適化するアプローチであり、生成される画像のリアルさから評判になり後続の研究も次々発表されています。 Free View Synthesis [3] は同じく昨年の論文で事前に SfM でカメラ位置と大まかな三次元構造を復元してから、目標のカメラ位置にワープ（転写）した情報を使って CNN で画像を直接生成するアプローチになります。このように色々なアプローチが提案されているものの多大な計算量を必要とするアプローチが主流であるため、実アプリケーションまで至っている物はほとんどありません。

Oculus Quest 2 にも搭載されている Passthrough+ [1] はカメラの位置関係が固定されていて、そこまで品質が問われない状況で高速に視点合成を達成する方法を採用しています。

Passthrough+

概要

この手法はVRゴーグルの下付きカメラx2から両目位置での視点位置映像を 72 Hz @ CPU 1 core + GPU (Snapdragon 835 (Oculus Quest)) で合成可能な物になっています。この合成では、他のアプリケーションの動作を阻害しないように、計算リソースをほぼ使っていません。にもかかわらずこの速度を出せるのは驚異的です。

[1] Fig.2 より引用

上の図からも分かるように両眼（橙）とカメラ（青）の位置・方向が一致していません。

全体的な構成としては

ステレオカメラによる Depth 推定 & 時系列的なフィルタリング @ CPU
半球上での Depth 補間 @ CPU
ステレオレンダリング @ GPU

になっていて、前方を覆う程度の半球上のメッシュを三次元構成してそれを別位置から見ることで視点合成を達成しています。高速な動作を達成するために 1-2 は 70 x 70 程度の解像度で実行されます。

1. ステレオカメラによる Depth 推定 & 時系列的なフィルタリング

ステレオカメラ（2眼カメラ）ではそのカメラの位置関係が予め分かっていれば2枚での対応点を検索して、その画像中での位置の違いを見ることでその点の三次元位置を計算することができます。(三角測量の原理)

一般に 2 枚の画像の対応点検索を CPU で処理すると時間がかかりがちなのですが、ここでは SoC に搭載されている H.264 Encoder を利用することで消費電力の削減と処理時間の削減を達成しています。

動画の圧縮規格である H.264 では基準となる I フレーム以外は動きと残差を記録することで全体のデータサイズを抑えています。したがって H.264 の Encoder は 8 x 8 のブロック（マクロブロック）のブロックマッチングを高速に求める H/W ブロックが搭載されており、その結果を利用することで2枚画像の対応点検索を高速に行なうことが可能です。

H.264 のフレーム間予測のイメージ

この対応点検索を行なう2枚画像については歪み補正と平行化と呼ばれる処理を実施した物を入力します。この前処理を行なうことで1枚の画像の特定の対応点は違う画像での同じ高さの線上に位置することになります。したがってブロックマッチによって検出された対応点組から同じ高さにあるものだけを抽出する必要があります。

他に注意すべき点としては H.264 でのブロックマッチには画像の差分だけではなく動きの大きさも考慮されていることがあります。

これらの点を踏まえて以下のような画像が入力されます。

[1] Fig.4 より引用

半マクロブロックシフトの組み合わせ4通りが埋め込まれていることが分かります。 ( ( 0, 0 ), ( 0, shift ), ( shift, 0 ), ( shift, shift) )

また動きベクトルの妥当性を検証するために逆順でも計算します。(P (左側) -> I (右側) -> I (左側) の順)

得られた動きベクトルは1ブロックについて 4 x 2 で 8 通り取得されますが、これらを

L ↔ R で動きベクトルが一致していること
動きベクトルの垂直成分が小さいこと

を基準にして選択します。この対応点情報を使うことで物体点の Depth 値の推定をすることが可能になります。

ただしこの対応点情報も時系列的にフィルタリングすることで安定性を改善しています。観測点を使って以下のように点候補を更新します。（各点候補は重みを持っています）

各ステップ、点候補に存在する観測点だけを最終的な対応点として使用
各ステップ終了時に観測点は以下のアルゴリズムに則り点候補に追加
- 観測点で点候補に近い物は重みを増加
- 点候補に近い物がない場合は重み0で追加
- 観測点が存在しない点候補の重みを削減
- 重みが0より小さくなったものを点候補から削除

このような手法を取ることで対応点の時系列的な外れ値除去が可能になります。

2. 半球上での Depth の補間

前の節で対応点を求めることが可能になりましたが、そのままではスパースな対応点でしかないためメッシュとして三次元表現するためにそれを Dense にします。

Depth の補間については様々なアプローチが知られていて最適化による方法の他に CNN によるアプローチも最近は取られています。（文献紹介）Depth Completionの最新動向 - Morpho Tech Blog

[1] Fig.6 より引用
ここでは前方の半球上のグリッド (70 x 70) で Depth 値を補間します。実際には、手前側を重要視するようにグリッド上の値を Inverse Depth で計算します。画像合成の Poisson Matting などと同様に Poisson 方程式を解くことで滑らかな三次元曲面を推定します。 : グリッド上の Inverse Depth, : 観測点の Inverse Depth, : 観測点の集合として以下の2次形式の最小化に対応します。これは停留条件の線形方式を解くことで計算することができ、ここでは SOR 法を採用して計算しています。 (共役勾配法の方が収束性能はよいが計算の都合上 SOR 法の方が結果として高速だったようです)

二次形式の最小化と線形方程式

この最適化問題に対する観測点を

時系列的フィルタリングで得られた点候補 (重みw=1/6)
前フレームで得られたポイントを現在位置に射影した点 (重みw=5)

とすることで時間的にさらに平滑化しています。

3. ステレオレンダリング

GPU 上で Depth Map の情報からメッシュを生成する部分です。ヘッドマウントディスプレイなので両眼を設定する必要があり、左目・右目でそれぞれ左カメラ画像・右カメラ画像をテクスチャに設定します。単一テクスチャの場合に比べて (1) ワープする量が小さくて済むので自然な絵になりやすい (2) 視野の大半をカバーしやすいなどの利点がある一方で物体が近距離にあると視覚的に違和感がでやすい欠点があります。

その他 CPU と GPU を適切に連携させることで遅延を意識させないような工夫がなされています。 CPU はカメラ映像を即時に GPU に転送、幾何的情報は計算後に転送し、 GPU は情報の更新がない限りは自己位置の情報とテクスチャとメッシュで常にレンダリングを実行し続けます。

4. 結果

ステレオの計算部分については Rectification (0.6 ms), Motion vectors (2.8 ms), Decoding (1.7 ms), Spatial checks (0.5 ms), Temporal filtering (1.0 ms) と 6.6 ms 程、 Depth 補間については System matrix setup (0.8 ms), Solver (0.7 ms) と 1.5 ms 程でトータルで見ても 9 ms 以下で動作が完結していることが分かります。

実際のカメラで撮影されてからディスプレイに表示される時間(photon-to-texture latency)は 49 ms 程度であり、実体験としても特に違和感がない動画が描画できています。筆者によるとこの時間が視覚的な違和感につながりやすく、100 ms 程度の場合はかなり遅延があるように見えるそうです。一方で三次元構造がディスプレイに反映される時間(photon-to-geometry)は 62 ms 程度ですが、この遅延は 100 ms でも特に顕著ではないとのことで興味深い知見になっています。

絶対的な精度に関しても 1m 程度の Depth の誤差が 0.02m 程度であり、それなりの精度が達成できています。

5. まとめ

論文ではリアルタイムかつ低消費電力な視点合成について提案されていて、実際に市販の端末で体験できるものになっています。視差推定のあたりの H/W の利用方法などかなりエンジニアリング的な方法ですが、実際携帯端末での低消費電力かつ高速な実行を考えると H/W の活用は避けて通れない道です。論文中でも述べられていますが Optical Flow 計算などについては SoC 側での H/W での機能拡張が進んでいる領域になっておりこれからも活用が進んでいくと思われます。視点合成の端末での実現もホットなトピックになっていてこれからもキャッチアップしていきたい分野になります。

6. 引用文献

[1] Chaurasia, Gaurav and Nieuwoudt, Arthur and Ichim, Alexandru-Eugen and Szeliski, Richard and Sorkine-Hornung, Alexander, Passthrough+: Real-Time Stereoscopic View Synthesis for Mobile Mixed Reality, in Proceedings of the ACM on Computer Graphics and Interactive Techniques (2020).

[2] Ben Mildenhall and Pratul P. Srinivasan and Matthew Tancik and Jonathan T. Barron and Ravi Ramamoorthi and Ren Ng, NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis, ECCV (2020).

[3] Gernot Riegler and Vladlen Koltun, Free View Synthesis, ECCV (2020).

画像分類タスクにおける半教師有り学習第1回

2020-12-25T11:30:50+09:00

こんにちは、モルフォリサーチャーの芳賀です。

一般に機械学習で精度の高いモデルを作るためにはドメインに応じたたくさんの学習データが必要となります。しかし実際の業務においては、入力データは容易に集められてもアノテーションコストが問題になる場合があります。「手元にたくさんデータはあるけどアノテーションが大変。」そういうときにアノテーションラベルが付いていなくても学習データとして使う手法の一つに半教師有り学習（Semi-Supervised Learning）というものがあります。

今回から3回に渡って、画像分類タスクにおいて半教師有り学習がどのように発展を遂げてきたかについて紹介します。

1回目のテーマは、半教師有り学習の概要についてです。その中でも、ラベル有りデータとラベル無しデータを一度に学習に組み込むone-stage学習に焦点を当てて、基本コンセプトである「consistency regularization」「entropy minimization」について具体的な手法を交えながら解説したいと思います。

半教師有り学習
半教師有り学習の分類
- one-stage
- multi-stage
半教師有り学習の基本コンセプト
まとめ
参考文献

半教師有り学習

半教師有り学習とは、機械学習の分類の一つで、名前の通り教師有り学習と教師無し学習の間となる設定における学習手法になります。具体的には与えられたデータセットの中で答えとなる教師ラべルが付与されてる一部のラベル有りデータと、通常多数のラベル無しデータを用いてうまく学習を進めていく仕組みのことを指します。

各学習手法の違い。半教師有り学習では一部のデータのみラベルにアクセスできる状況で学習を行う。

このような設定の需要として例として以下の3点が上げられます。

アノテーションコストの低減
アノテーションの属人性の排除
ビッグデータの活用

やはり効果として大きいのは1つめのアノテーションコストの低減なのではないでしょうか。学習の入力となるデータを集めることは比較的コストが低いですが、人の手で数千数万ものデータに分類クラスやBoundingBoxなどラベルを付与する作業は非常にコストが高いのでなるだけ避けたい作業ではあります。かといってラベルのついてないデータをみすみす使わないのはもったいないので、ラベルのついてないデータもなんとか学習に組み込めないかというモチベーションで半教師有り学習の研究が進んでいます。

では、手元に十分なラベル有りデータがある場合は半教師有り学習について考える意義は無いのでしょうか？答えはNoで、実は半教師有り学習の知見を入れた教師有り学習を行うと精度が上がるという報告もあるため、知識として知っていて損はないと思います。

半教師有り学習の分類

以降では、画像認識タスクに焦点を当てて解説していきます。文献[1]では半教師有り学習を学習戦略の観点から主に2種類に分類しています。

one-stage
multi-stage

one-stage

one-stageは1回の学習プロセスで分類器を作ります。具体的には、ラベル有りデータとラベル無しデータをまとめて扱ってそれぞれうまくロスを設計することで一度に学習を進めるアプローチです。

multi-stage

multi-stageは少なくとも2段階の学習プロセスを経て最終的な分類器を作ります。 1段階目ではラベル情報を用いずに自己教師有り学習(self-supervised)によるデータの潜在的な表現を学習させます。この段階で行う学習タスクをpretext taskと呼んだりもします*1。

そして最終段階では前段階でのモデルと教師ラベルを用いてfine tuningを行い最終的な分類器を学習させます。

本記事は手法としてシンプルなone-stageの学習戦略を採用した手法に絞って解説したいと思います。しかしone-stageとmulti-stageを明確に分ける意味はなく、単なる一つの分類として捉えていただければと思います。

半教師有り学習の基本コンセプト

ラベル無しデータをどのように学習に組み込むかが気になるところだと思います。基本的にはラベル無しデータのラベルをなんらかの手法で推定してロスに組み込んだり、ラベル無しデータの出力に正則化による制約をかけたりします。半教師有り学習では、以下に挙げる2種類のコンセプトを用いてラベル無しデータを学習に組み込んでいます。

entropy minimization
consistency regularization

上記の概念をベースとなる具体的な手法と交えて解説したいと思います。

準備

まずは準備としておなじみの損失関数として使われる計算式を定義しておきます。

cross entropy

状況に応じて変数の解釈は異なりますが、基本的にはが教師ラベルとなるone-hotベクトルでがモデルの出力ベクトルを想定しています。

mean squared error (MSE)

こちらも状況に応じて変数の解釈は異なりますが、としてモデルの出力ベクトルを想定しています。

entropy minimization

一つ目のコンセプトとしてentropy minimizationがあります。これは、モデルから出力される予測の信頼度を高くするように導く考え方のことです。信頼度の高い予測というのは、分類タスクの場合出力ベクトル*2のエントロピーが小さい状態と捉えることができます。

確率分布とエントロピー

ある確率変数の取りうる離散確率分布がと表されるときのエントロピーは数式では以下のように表されます。

ここでいう確率分布は「入力が分類クラスである確率」と解釈できるため、画像を入力したときのモデルの出力ベクトルに相当します。ラベル有りデータの教師ラベルは通常one-hotベクトルで表すことができ、の最もエントロピーが下がった状態と言えます。一方でのどの要素も等確率な状態のエントロピーは、計算するととなりエントロピー最大値を取ります。

したがって、信頼度の高い出力ベクトルになるよう制御するentropy minimiazationのアイデアは、ラベル無しデータの扱いにとって重要になります。

Pseudo-label

entropy minimiaztionをimplicitに組み込んだ代表的な例としてPseudo-label[2]という手法が2013年の論文で提案されました。*3

当時は半教師有り学習といえば、教師無し学習によるpre-trainingフェーズと教師有り学習を用いたfine-tuningフェーズの二段階構成(multi-stage)で行う手法が多く、うまくone-stageでラベル有り無しデータひっくるめて学習できないかというモチベーションで提案されています。

具体的には、Pseudo-labelとはモデルからの出力を「最も出力値の高いラベルを1に他を0にするone-hotベクトル」に変換することによりラベル無しデータのラベルを推定する手法で、図示すると以下のように表されます。

モデルの出力から作られるPseudo-label

学習に組み込む際のロスは以下のように計算します。

分類器、分類クラス数として、ミニバッチ内のラベル有りデータについて

：データ数
：入力画像
：教師ラベル

同じくミニバッチ内のラベル無しデータについて

：データ数
：入力画像
：モデルの出力に対し作ったPseudo-label

を表します。

はエポック数が進むにつれてラベル無しデータのロスの割合を大きくする効果を与えるパラメータで、他の手法でも同じような仕組みが採用されています。学習の初期においては信頼度の低い出力しか得られないため、そこからPseudo-labelを作ってしまうことによる悪影響を防ぐためのものと考えると納得できます。

consistency regularization

二つ目は、consistency regularizationという正則化の手法です。同じ画像に対し異なる摂動を加えても、モデルに流したときの出力が似たような予測になるべきという仮定のもとの正則化です。ここでいう摂動とはデータ拡張やDropout正則化、または明示的にガウシアンノイズを加えるといった内容を指します。（この点は論文によって指す内容が異なります）

ここではconsistency regularizationを提唱した論文として有名な1つの具体的な手法について紹介したいと思います。

Π-model

consistency regularizationの考えを半教師有り学習に組み込んだ例としてΠ-model[3, 4]という手法が提案されています。*4

Π-modelでは学習の順伝搬時の確率的な挙動、つまりランダムに学習ノードの接続を落とすDropout正則化やランダムに入力を変化させるデータ拡張などの特性を活かし、異なる2回の順伝搬でパスの違いはあるものの出力が同じであるべきという信念で学習を設計しています。

Π-modelの具体的な学習のイテレーションについても以下の論文内の図と合わせて見ていきましょう。

Π-model全体図：[3]より引用

分類クラス数、ミニバッチを、その中のラベル有りデータの集合をとします。

入力に対しデータ拡張を行いモデルに流し出力を得る。（はモデルのパラメータを指します）
同じ入力に対し1.と同様の処理を行い出力を得る。（データ拡張やDropoutのランダム性から全く同じ出力になるわけではないことに注意）
consistency regularizationの項として二乗誤差を計算する
入力がラベル有りのデータならばラベルと片方の出力に対しcross entropy を計算する
ミニバッチごとに以下のロスを計算して誤差逆伝搬を行う。

ロスの第二項がconsistency regularizationを表します*5が、入力がラベル有りデータならば第一項のcross entropyをロスに寄与させるというような形になります。

また、はPseudo-labelでのと同じような役割で最初0から始めてどんどん大きくしていく関数を採用します。

まとめ

今回は以上です。

半教師有り学習の「consistency regularization」「entropy minimization」の考え方は一般の学習にも応用できそうに感じました。

次回は、最近の手法に至るまでの数々の手法について紹介したいと思います！

参考文献

[1] Schmarje, Lars et al. “A survey on Semi-, Self- and Unsupervised Learning for Image Classification.” (2020).

[2] Lee, Dong-Hyun. "Pseudo-Label: The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks."

[3] Laine, Samuli, and Timo Aila. "Temporal ensembling for semi-supervised learning." arXiv preprint arXiv:1610.02242 (2016).

[4] Sajjadi, Mehdi et al. "Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning." arXiv preprint arXiv:1606.04586 (2016).

*1:pretext taskは例えば入力画像の回転(0°, 90°, 180°, 270°)を推定するものやジグソーパズルを解かせるタスクなどが提案されています。

*2:教師有り学習におけるSoftmaxレイヤーの入力であるロジットを想定

*3:Pseudo-labelのことを「ラベル無しデータに対する推定ラベル」という意味合いで用いる文献もあるので注意が必要ですが、基本的にはPseudo-labelは本論文の手法のことを指します。

*4:Π-modelという名前を付けているのは[3]の論文ですが、オリジナルのアイデアは[4]の論文で提案されており、前者は後者の簡易的なケースを考えているものとなっています。本記事では説明の関係上、前者の提案手法をもとに解説したいと思います。

*5:3.のconsistency regularizationでなぜCEではなくMSEなのか？と私は疑問に思いました。論文によるとMSEはCEと比べてやや罰則が弱いが実験結果としてはMSEを用いたほうが良い結果が出たと述べています。

Morpho Tech Blog

OJT 2025：自然言語での画像レタッチング

目次

はじめに

システム構成

VisProg

レタッチ実行部

Gemma 3

ぼかし機能インタプリタ

直面した課題

RAG

類似度検索の手法

WebUI

フロントエンド

Webフレームワーク層(Flask)

バックエンド

結果

明確な命令の場合

曖昧な命令の場合

非常に曖昧な命令の場合

まとめ

参考文献

JDLA主催「CVPR2025技術報告会」発表資料

発表内容のダイジェスト

概要

トレンド分析

トレンド深堀り①3D再構成

トレンド深堀り②マルチモーダル

トレンド深堀り③動画の認識・生成

テクニカルディープダイブ①新世代のアーキテクチャMambaの動向

テクニカルディープダイブ②NTIRE 2025

発表資料の共有

引用

OJT 202410/202411：プライバシー保護カメラ

はじめに

動機

目標

使用機材

メソッド

顔検出

顔照合

高速化

検出頻度の削減

照合頻度の削減と顔追跡（Face Tracking）

結果

スマートフォン向けの開発

まとめ

参考文献

【開催レポート】社員のアイデアがモルフォの未来を創る - Will型アイデアハッカソン

Will型開発とは？

なぜアイデアハッカソンを開催したか？

イベント全体の流れ

各チームの成果発表

チーム①：「スキャン画像をきれいにする」

チーム②：「言語命令による自由自在なレタッチ」

チーム③：「画面録画による作業ログ探索」

振り返り

まとめ

A Brief Survey of Schrödinger Bridge (Part II)

1. Iterative Proportional Fitting (IPF)

2. Flow Matching with Minibatch Optimal Transport

3. Iterative Markovian Fitting (IMF)

各手法の比較と展望

DINO v2：画像処理の基盤モデル

本記事の概要

はじめに～基盤モデル～

DINO v2が開発された背景

Contrastive Learning（CL）

Masked Auto-encoder （MAE）

DINO v2の論文[1]概説

補足

DINO v2でできること

画像から抽出したセマンティックな情報を利用

同一・類似物体のマッチングを利用

位置関係（構造）の情報を利用

「画像本来が持つ情報情報・特徴量」が得られることを利用

その他

さいごに

出典

EVS による光無線通信（QR コード 3次元化）- EVS ハッカソン Team B