OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities

要約

クロスモーダル調整学習では、テキスト、画像、音声、ビデオなどのさまざまなモダリティからの情報を統合して、統一されたモデルを作成します。
このアプローチは、共有表現を開発し、モダリティ間の相関関係を学習し、視覚的な質問応答や視聴覚コンテンツ分析などのアプリケーションを可能にします。
現在の技術は大規模なモダリティ固有のエンコーダーに依存しており、整列された膨大なデータセット (テキスト画像、テキスト音声、画像音声など) をゼロから微調整またはトレーニングする必要があります。
このアプローチには制限があります。(i) 広範なデータセットで大規模なエンコーダをトレーニングする必要があるため、非常にコストがかかります。(ii) 整列された大規模なペアのデータセットを取得するのは困難です。(iii) 新しいモダリティを追加するには、これらを組み込むためにフレームワーク全体を再トレーニングする必要があります。
モダリティ。
これらの問題に対処するために、4 つのモダリティ (画像、テキスト、オーディオ、ビデオ) を段階的に表現し調整する軽量フレームワークである OneEncoder を提案します。
最初に、画像とテキストのモダリティを調整するために軽量のユニバーサル プロジェクション モジュール (UP) をトレーニングします。
次に、事前トレーニングされた UP をフリーズし、将来のモダリティをすでに調整されているモダリティに徐々に調整します。
OneEncoder は、その軽量設計により、膨大な整列されたデータセットが利用できないシナリオでも、効率的かつコスト効率よく動作します。
小さなペアのデータセットでトレーニングされたこのツールは、分類、クエリ、視覚的な質問応答などのタスクで強力なパフォーマンスを示し、大規模なデータセットや特殊なエンコーダーに依存する方法を上回ります。

要約(オリジナル)

Cross-modal alignment Learning integrates information from different modalities like text, image, audio and video to create unified models. This approach develops shared representations and learns correlations between modalities, enabling applications such as visual question answering and audiovisual content analysis. Current techniques rely on large modality-specific encoders, necessitating fine-tuning or training from scratch on vast aligned datasets (e.g., text-image, text-audio, image-audio). This approach has limitations: (i) it is very expensive due to the need for training large encoders on extensive datasets, (ii) acquiring aligned large paired datasets is challenging, and (iii) adding new modalities requires retraining the entire framework to incorporate these modalities. To address these issues, we propose OneEncoder, a lightweight framework that progressively represents and aligns four modalities (image, text, audio, video). Initially, we train a lightweight Universal Projection module (UP) to align image and text modalities. Then, we freeze the pretrained UP and progressively align future modalities to those already aligned. OneEncoder operates efficiently and cost-effectively, even in scenarios where vast aligned datasets are unavailable, due to its lightweight design. Trained on small paired datasets, it shows strong performance in tasks like classification, querying, and visual question answering, surpassing methods that rely on large datasets and specialized encoders.

arxiv情報

著者 Bilal Faye,Hanane Azzag,Mustapha Lebbah
発行日 2024-09-18 13:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク