Alternating Gradient Descent and Mixture-of-Experts for Integrated Multimodal Perception

要約

シンプルでスケーラブルなマルチモーダル マルチタスク トレーニングおよびモデリング アプローチである Integrated Multimodal Perception (IMP) を紹介します。
IMP は、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を、モダリティ固有のコンポーネントを最小限に抑えた単一の Transformer エンコーダーに統合します。
IMP は、交互勾配降下 (AGD) と専門家混合 (MoE) を組み合わせた新しい設計を利用して、効率的なモデルとタスクのスケーリングを実現します。
私たちは広範な実証研究を実施し、次の重要な洞察を明らかにしました。 1) 入力解像度を変えて、多様なモダリティ、損失関数、およびタスクを交互に実行することで勾配降下法更新を実行すると、モデルが効率的に改善されます。
2) 単一のモダリティに依存しないエンコーダ上の MoE によるスパース化により、パフォーマンスが大幅に向上し、モダリティ固有のエンコーダや追加の融合層を使用する高密度モデルを上回り、モダリティ間の競合が大幅に軽減されます。
IMP は、ビデオ分類、画像分類、画像テキスト、ビデオテキスト検索などの幅広いダウンストリーム タスクで競争力のあるパフォーマンスを実現します。
最も注目すべき点は、ゼロショット ビデオ分類で新しい最先端を達成するビデオ タスクに焦点を当てたスパース IMP-MoE-L バリアントをトレーニングしたことです: Kinetics-400 で 77.0%、Kinetics-600 で 76.8%、および 68.3%
Kinetics-700 では、総トレーニング計算コストの 15% のみを使用しながら、以前の最先端技術をそれぞれ +5%、+6.7%、+5.8% 向上させています。

要約(オリジナル)

We present Integrated Multimodal Perception (IMP), a simple and scalable multimodal multi-task training and modeling approach. IMP integrates multimodal inputs including image, video, text, and audio into a single Transformer encoder with minimal modality-specific components. IMP makes use of a novel design that combines Alternating Gradient Descent (AGD) and Mixture-of-Experts (MoE) for efficient model and task scaling. We conduct extensive empirical studies and reveal the following key insights: 1) Performing gradient descent updates by alternating on diverse modalities, loss functions, and tasks, with varying input resolutions, efficiently improves the model. 2) Sparsification with MoE on a single modality-agnostic encoder substantially improves the performance, outperforming dense models that use modality-specific encoders or additional fusion layers and greatly mitigates the conflicts between modalities. IMP achieves competitive performance on a wide range of downstream tasks including video classification, image classification, image-text, and video-text retrieval. Most notably, we train a sparse IMP-MoE-L variant focusing on video tasks that achieves new state-of-the-art in zero-shot video classification: 77.0% on Kinetics-400, 76.8% on Kinetics-600, and 68.3% on Kinetics-700, improving the previous state-of-the-art by +5%, +6.7%, and +5.8%, respectively, while using only 15% of their total training computational cost.

arxiv情報

著者 Hassan Akbari,Dan Kondratyuk,Yin Cui,Rachel Hornung,Huisheng Wang,Hartwig Adam
発行日 2023-12-11 18:52:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV パーマリンク