A Brief Survey of Schrödinger Bridge (Part I)

こんにちは、CTO室リサーチャーの長山と申します。

モルフォでは毎週金曜日に持ち回りで論文紹介等を行うJournal Clubという取り組みを行っています。 今回は、私がその場で発表したSchrödinger Bridge(シュレーディンガー橋; SB)という確率論的生成モデルスキームの解説スライドを公開いたします。

Stable DiffusionやMidjourneyに代表されるような画像生成AI手法は、ここ一年間で目覚ましい発展を遂げたことは記憶に新しいと思います。 その原動力となった基礎技術の一つが拡散モデル(Diffusion Models)です。 拡散モデルとは、データからノイズへと徐々に崩壊するような過程を学習し、その逆過程(すなわちノイズ除去)をシミュレーションすることで目標のデータを創り出すような手法と説明することができます(図1)。 高い生成品質かつ安定した学習を実現できることから、拡散モデルは画像生成AIにおける以前の主流であった敵対的生成ネットワーク(Generative Adversarial Networks; GANs)を現在進行系で置き換えつつあります。

図1: 拡散モデルの崩壊・生成過程(引用: arXiv:2006.11239

続きを読む

OJT 2023: ジェスチャー認識とRealSenseを活用したARアプリ

こんにちは。23年度入社のリサーチャーの三冨です。入社後2か月間にわたったグループ研修の内容と結果について報告します。テーマは「深度情報を利用したアプリケーション」です。 ​

はじめに

私たちはECサイトで用いられる商品紹介のためのARアプリを題材として研修を行いました。このようなアプリの例として家具の配置をシミュレートするARアプリが挙げられます。カメラ映像に3Dモデルをリアルタイムに重ねて表示できるものです。部屋を映せば家具のコーディネートが購入前に確認できます。

このようなアプリに、3Dハンドジェスチャー認識機能を搭載して機能拡張することを考えました。通常の2Dジェスチャー認識に加えてカメラと手の距離が分かることで、より正確な認識とより直感的な操作ができます。それを活かせれば、ゆくゆくは3Dモデルを実物のように運んだり動かしたりできそうです。

RealSenseはこのようなアプリの実装に適しています。RealSenseは深度(カメラと映った物との距離)センサとRGBセンサを合体させたデバイスであり、深度イメージ処理用のプロセッサや豊富なライブラリも用意されています。そのためリアルタイムに3Dジェスチャー認識するアプリを短期間で作成するのにうってつけでした。

続きを読む

JDLA主催「CVPR2023技術報告会」発表資料

先日、日本ディープラーニング協会主催(JDLA)の「CVPR2023技術報告会」にてモルフォの技術者が登壇いたしました。

www.morphoinc.com

CVPRという国際学会の重要性や、今年のトレンドの分析、モルフォの技術者が注目した分野や論文について紹介しました。 資料を見たいという声を多数いただいたので発表資料を共有させていただきます。


発表動画については以下のリンクから是非ご視聴ください。 https://www.youtube.com/watch?v=XVgUvFig-_M

Contrastive Learningの最新動向のレビュー

 こんにちは。CTO室リサーチャーの鈴木です。今回は、深層学習の分野でここ数年盛り上がっているContrastive Learning系の手法について、主だった論文を系統的にまとめて紹介したいと思います。

はじめに

 近年発展した自己教師あり学習(Self-Supervised Learning:SSL)は、アノテーション情報を人の手ではなく機械的に付与することで、データセットの構築にかかる時間やコストを軽減し、深層学習モデルの精度向上を目指した手法です。自然言語処理分野におけるSSLは大きな成功を収め、ChatGPT等の超高性能なチャットボットの出現にも影響を与えました。

 SSLは主に深層学習モデルの「事前」学習として用いられます。SSLによって、文章や画像に含まれる一般的な特徴を大量のデータから学習することができます。これにより、文章生成や画像認識などの本学習の効率が向上し、最終的な性能向上にもつながります。したがって、SSLは、深層学習において広く使用される重要な技術の1つであると言えます。

 今回紹介するContrastive Learning(CL)は、画像処理における代表的なSSLの手法です。データ内で似たもの(正例)と似ていないもの(負例)をグループ化し区別するように学習することで、モデルがより質の高い特徴量を抽出できるようにする手法です。

 本記事ではまずCL手法の基本について説明し、その後近年のCL論文28本について、各手法がCLのどの部分を改善したのかに着目して分類し、それぞれの概要を説明いたします。

続きを読む

実務訓練 2022:ネイル画像生成アプリケーションの作成

 本記事は、2022年度の実務訓練で勤務した高橋快斗さんによる寄稿です。


はじめに

 はじめまして。2023年の1月から2月にかけて株式会社モルフォで実務訓練を行っていた豊橋技術科学大学の高橋です。 本実務訓練では、昨今話題のText-to-Image技術を応用したネイル画像生成アプリケーションを作成しました。このアプリケーションでは、ユーザーがネイルデザインを指定することで、自動的に画像を生成することができます。

生成画像

 早速ですが、生成されたネイル画像は図1になります。

生成画像の例
図1 生成画像例

続きを読む

インターンシップ 2022:手と物体のInteractionを検出するWebアプリの開発

はじめまして。2022年夏季に株式会社モルフォでインターンをしていた山本です。現在は情報系の大学院でVision-Languageに関する研究を行っています。私のインターンシップでは、画像中の手と物体を検出し、それらの状態を文として出力するWebアプリケーションの開発に取り組みました。

続きを読む

OJT 2022:depth mapを用いた画像のレイヤー分割+エフェクト

 こんにちは。プロダクト開発部の中屋敷です。当社では毎年、新入社員でグループ研修を行います。今年度、私達が研修で作成したのが「画像のレイヤー分割」と「水彩画効果を用いた動画化」システムです。本記事では、このシステムの開発の目的や原理、実現したことについてご紹介いたします。

概要

 皆さんはデジタルで絵を書いたことはありますか?デジタルではアナログと違い、元に戻したりコピーしたりと便利な機能がありますが、その中でも特に重要なのがレイヤー機能です。風景・人・犬といった描写物を別々の透明フィルムに書き込み、それらを重ね合わせることで一枚の絵とするものです。このレイヤー機能により、人のポーズを変えたり位置を動かしたりしても背景を書き換える必要がないため、非常に便利なものとなっています。

 そしてもう一つ、撮った写真を加工することも身近になってきました。文字やスタンプでデコるだけでなく、写りこんだ人を消したり、逆に人を増やしたり。ですが、単に写真の上に追加するだけならともかく、加工をしようとすると途端に難しくなります。(柵の奥に人を追加しようとすると切り抜きが大変ですし、中にはスタイルを良くしようと加工したら背景の人が歪んでしまったなんてケースも・・・)

 そこで私達は、写真を複数のレイヤーに分割できれば様々な加工処理が楽になるのではと考え、これを実現するシステムを開発しました。 加えて、この分割結果を用いることで面白いエフェクトも実現しましたのでご紹介します。

続きを読む