Contrastive Learningの最新動向のレビュー

 こんにちは。CTO室リサーチャーの鈴木です。今回は、深層学習の分野でここ数年盛り上がっているContrastive Learning系の手法について、主だった論文を系統的にまとめて紹介したいと思います。

はじめに

 近年発展した自己教師あり学習(Self-Supervised Learning:SSL)は、アノテーション情報を人の手ではなく機械的に付与することで、データセットの構築にかかる時間やコストを軽減し、深層学習モデルの精度向上を目指した手法です。自然言語処理分野におけるSSLは大きな成功を収め、ChatGPT等の超高性能なチャットボットの出現にも影響を与えました。

 SSLは主に深層学習モデルの「事前」学習として用いられます。SSLによって、文章や画像に含まれる一般的な特徴を大量のデータから学習することができます。これにより、文章生成や画像認識などの本学習の効率が向上し、最終的な性能向上にもつながります。したがって、SSLは、深層学習において広く使用される重要な技術の1つであると言えます。

 今回紹介するContrastive Learning(CL)は、画像処理における代表的なSSLの手法です。データ内で似たもの(正例)と似ていないもの(負例)をグループ化し区別するように学習することで、モデルがより質の高い特徴量を抽出できるようにする手法です。

 本記事ではまずCL手法の基本について説明し、その後近年のCL論文28本について、各手法がCLのどの部分を改善したのかに着目して分類し、それぞれの概要を説明いたします。

続きを読む

実務訓練 2022:ネイル画像生成アプリケーションの作成

 本記事は、2022年度の実務訓練で勤務した高橋快斗さんによる寄稿です。


はじめに

 はじめまして。2023年の1月から2月にかけて株式会社モルフォで実務訓練を行っていた豊橋技術科学大学の高橋です。 本実務訓練では、昨今話題のText-to-Image技術を応用したネイル画像生成アプリケーションを作成しました。このアプリケーションでは、ユーザーがネイルデザインを指定することで、自動的に画像を生成することができます。

生成画像

 早速ですが、生成されたネイル画像は図1になります。

生成画像の例
図1 生成画像例

続きを読む

インターンシップ 2022:手と物体のInteractionを検出するWebアプリの開発

はじめまして。2022年夏季に株式会社モルフォでインターンをしていた山本です。現在は情報系の大学院でVision-Languageに関する研究を行っています。私のインターンシップでは、画像中の手と物体を検出し、それらの状態を文として出力するWebアプリケーションの開発に取り組みました。

続きを読む

OJT 2022:depth mapを用いた画像のレイヤー分割+エフェクト

 こんにちは。プロダクト開発部の中屋敷です。当社では毎年、新入社員でグループ研修を行います。今年度、私達が研修で作成したのが「画像のレイヤー分割」と「水彩画効果を用いた動画化」システムです。本記事では、このシステムの開発の目的や原理、実現したことについてご紹介いたします。

概要

 皆さんはデジタルで絵を書いたことはありますか?デジタルではアナログと違い、元に戻したりコピーしたりと便利な機能がありますが、その中でも特に重要なのがレイヤー機能です。風景・人・犬といった描写物を別々の透明フィルムに書き込み、それらを重ね合わせることで一枚の絵とするものです。このレイヤー機能により、人のポーズを変えたり位置を動かしたりしても背景を書き換える必要がないため、非常に便利なものとなっています。

 そしてもう一つ、撮った写真を加工することも身近になってきました。文字やスタンプでデコるだけでなく、写りこんだ人を消したり、逆に人を増やしたり。ですが、単に写真の上に追加するだけならともかく、加工をしようとすると途端に難しくなります。(柵の奥に人を追加しようとすると切り抜きが大変ですし、中にはスタイルを良くしようと加工したら背景の人が歪んでしまったなんてケースも・・・)

 そこで私達は、写真を複数のレイヤーに分割できれば様々な加工処理が楽になるのではと考え、これを実現するシステムを開発しました。 加えて、この分割結果を用いることで面白いエフェクトも実現しましたのでご紹介します。

続きを読む

HiPPO/S4解説

こんにちは、CTO室リサーチャーの角田です。

社内では毎週金曜日に持ち回りで論文紹介を行うjournal clubという活動を行っております。そちらで私が発表した以下3本の論文

  • HiPPO: Recurrent Memory with Optimal Polynomial Projections (NeurIPS 2020 Spotlight)
  • Combining Recurrent, Convolutional, and Continuous-time Models with the Linear State Space Layer (NeurIPS 2021)
  • Efficiently Modeling Long Sequences with Structured State Spaces (ICLR 2022 Oral)

について、内容が非常に優れていると判断した&詳細な日本語解説がほとんど存在しないことから、このブログにて外部公開することを決めました。

内容としては時系列モデリングについてですが、LSTMやTransformerとは全く切り口の異なる手法で、厳密な理論展開を踏まえてモデルを構成しSOTA性能をたたき出した素晴らしい論文です。

近年のディープラーニング系論文においては、ふんわりとした気持ちでモデルを作ってとにかく精度向上が見られたことでアイデアを正当化するケースが多いですが、ボトムアップに理論構成して狙った通りに圧倒的精度を出している点で、この論文群は非常に稀有な存在だと認識しています。

もし同様の論文を読もうとされている方がいらっしゃれば、このスライドが助けになれば幸いです。また識者の方におきましては内容の誤り等ありましたら指摘いただけますと大変参考になります。

CVPR 2021 参加報告

 こんにちは、2021年4月に入社したCTO室リサーチャーの名古屋です。

 私たちが働く株式会社モルフォでは毎年、国内外を問わず画像処理・機械学習の学会や国際会議に積極的に参加しています。今回は私ともう2名の社内リサーチャーとで、6月19~25日に開催した「CVPR 2021」に参加してきました。

 この記事では、CVPRの概要と、個人的に気になった研究を3つピックアップして紹介します。

続きを読む

インターンシップ 2021:エッジを用いた Inpainting

本記事は、2021年のインターンシップで勤務した高橋直暉さんによる寄稿です。


はじめまして。株式会社モルフォでインターンをしていた高橋です。私のインターンシップでは、画像生成タスクの一つであるImage Inpaintingに取り組みました。このタスクは、毎年新しい手法が提案されており、近年では深層学習を導入した手法が主流です。今回は、シンプルで軽量なエッジ情報を用いたImage Inpainting手法[1]の改良に取り組みました。この記事では、インターンシップを通して得られた成果を紹介していきたいと思います。

続きを読む