OJT 2025:自然言語での画像レタッチング

こんにちは。 2025年度入社のリサーチャーの安達です。 今回は、弊社で実施している新人グループ研修について報告します。

目次

  • 目次
  • はじめに
  • システム構成
    • VisProg
  • レタッチ実行部
    • Gemma 3
    • ぼかし機能インタプリタ
  • 直面した課題
  • RAG
    • 類似度検索の手法
  • WebUI
    • フロントエンド
    • Webフレームワーク層(Flask)
    • バックエンド
  • 結果
    • 明確な命令の場合
    • 曖昧な命令の場合
    • 非常に曖昧な命令の場合
  • まとめ
  • 参考文献

はじめに

今年度の参加者は安達、周、ユガンダーの3名で、2か月間にわたりチーム開発を実施しました。 テーマは自然言語での画像レタッチングです。

続きを読む

JDLA主催「CVPR2025技術報告会」発表資料

先日、日本ディープラーニング協会主催(JDLA)の「CVPR2025技術報告会」にてモルフォの技術者が登壇いたしました。本記事では、当日の資料を共有するとともに、その発表内容をダイジェストでお届けします。

  • 発表内容のダイジェスト
    • 概要
    • トレンド分析
      • トレンド深堀り①3D再構成
      • トレンド深堀り②マルチモーダル
      • トレンド深堀り③動画の認識・生成
    • テクニカルディープダイブ①新世代のアーキテクチャMambaの動向
    • テクニカルディープダイブ②NTIRE 2025
  • 発表資料の共有
  • 引用

発表内容のダイジェスト

概要

CVPR(The IEEE / CVF Conference on Computer Vision and Pattern Recognition)は、コンピュータビジョン(画像認識技術)の分野で世界最高峰とされる国際学会です。昨年に引き続きまして、CVPRの重要性や、今年のトレンドの分析、モルフォの技術者が注目した分野や論文について詳しく解説しました。

続きを読む

OJT 202410/202411:プライバシー保護カメラ

こんにちは。2024年10月入社のカエンと、11月入社のスウです。今年度の新人グループ研修について報告します。

はじめに

弊社では2か月間のグループ研修を実施しています。今年度の参加者は陳 華炎(カエン)、鄒 宇傑(スウ)と趙 汝豪(ジョゴウ)の3名で、テーマは「Privacy-Preserving Camera(プライバシー保護カメラ)」です。

動機

スマートフォンの普及によって、写真を撮るチャンスが大幅に増えてきました。しかし、イベントや取材、日常のスナップショットなどで第三者の顔が映り、意図せず拡散されることは少なくないと思います。このような状況では、映ってしまった画像や動画は加工・修正する必要がありますが、手動では手間がかかります。そのため、手軽に写真・動画撮影の際のプライバシーを保護できるようなアプリを開発したいと考えました。

この研修では、リアルタイムで顔をぼかせる処理の実装を目標とし、特に利用者が多いスマートフォンに向けて開発しました。

続きを読む

【開催レポート】社員のアイデアがモルフォの未来を創る - Will型アイデアハッカソン

こんにちは。モルフォCTO室シニアリサーチャーの芳賀です。

今回は、モルフォ独自の制度である「Will型開発」を活用し開催した「Will型アイデアハッカソン」について、その活動内容や成果をご報告したいと思います。

Will型開発とは?

株式会社モルフォでは、社員一人ひとりの自律性を尊重し、新しいアイデアや技術の探求を促進するための制度として、「Will型開発」を推進しています。 これは、技術者をはじめとする社員が自身の「やりたい(Will)」を起点として、自律的に研究開発や業務改善に取り組むことを後押しする仕組みです。

続きを読む

A Brief Survey of Schrödinger Bridge (Part II)

こんにちは、CTO室リサーチャーの長山と申します。

モルフォでは毎週金曜日に持ち回りで論文紹介等を行うJournal Clubという取り組みを行っています。 今回は、前回執筆した Schrödinger Bridge Part I techblog.morphoinc.com の続編として、 Part II をお届けします。 詳細についてはスライド*1をご覧ください。

Part Iでは、Schrödinger Bridge (SB) 問題の基本的な定式化と理論的背景について解説しました。 今回のPart IIでは、SB問題を解くための3つの主要アプローチに焦点を当て、それぞれの特徴や最新の発展について詳しく見ていきます。

*1:余談ではありますが、本スライドは組版ソフトの Typst と、プレゼンテーション用パッケージの Touying を用いて作成されました。リアルタイムプレビュー可能な LaTeX のような趣なので、エンジニアの方々にはおすすめです。

続きを読む

DINO v2:画像処理の基盤モデル

こんにちは。CTO室リサーチャーの鈴木です。 近年、深層学習の分野では、さまざまなタスクにおいて「基盤モデル」と呼ばれる汎用的で高性能なモデルが注目を集めており、これらのモデルを活用した多岐にわたる応用が急速に進展しています。本記事では、その中でも画像分野における基盤モデルの一つである"DINO v2"[1]の概要をご紹介します。

本記事の概要

基盤モデルDINO v2は、

  • 画像の本質特徴を抽出する「自己教師あり表現学習」の決定版!
    • Contrastive LearningやMasked Auto-Encoderの仲間だよ
  • 画像分野における汎用性の高さが魅力!
    • 深度推定、インスタンス検索、物体の姿勢推定など、幅広いタスクに対応可能な特性
  • DINO v1とは構造からして大きく違うよ!
    • 筆頭著者が同じくMetaという繋がりはあるよ
続きを読む

EVS による光無線通信(QR コード 3次元化)- EVS ハッカソン Team B

こんにちは、プロダクト開発部の吉田仁です。

先日、EVS(イベント ベース ビジョン センサー)の実用化を目的とした社内ハッカソンが開催されました。(プレスリリース

今回は、ハッカソンにおける私たちのチーム(全 3 チーム中の一つ)の取り組みについて紹介します。

続きを読む