Modality Plug-and-Play: Elastic Modality Adaptation in Multimodal LLMs for Embodied AI

要約

大規模言語モデル (LLM) は、事前トレーニングされたエンコーダーを通じて、さまざまな入力データ モダリティを推論することができます。
ただし、入力データ モダリティの多様性が増大しているため、特に埋め込まれた AI アプリケーション用のリソースに制約のあるエッジ デバイスに LLM が展開されている場合、すべてのモダリティを LLM に組み込むことができません。
代わりに、より良いオプションは、現在の環境コンテキストとタスク要件に応じて、実行時に有用なモダリティのみを適応的に組み込むことです。
このようなモダリティ適応に関して、既存の作業ではエンコーダと LLM の入力層の間に固定接続が採用されており、実行時のトレーニング コストが高くつき、クロスモーダル インタラクションが非効率的になります。
この論文では、ユニモーダル エンコーダを最後の LLM ブロックの柔軟なセットに接続し、そのような潜在的な接続を実行時に完全にトレーニング可能にすることで、完全に柔軟で自動化された迅速なランタイム モダリティ適応を可能にする新しい技術である mPnP-LLM を提示することで、これらの制限に対処します。

nuScenes-QA データセットの実験では、mPnP-LLM が既存のスキームと同等の精度を維持しながら、最大 3.7 倍の FLOP 削減と 30% の GPU メモリ使用量削減を達成できることが示されています。
同じコンピューティング バジェットの下で、mPnP-LLM は既存の最良のスキームと比較してタスクの精度を最大 4% 向上させます。

要約(オリジナル)

Large Language Models (LLMs) are capable of reasoning over diverse input data modalities through pre-trained encoders. However, the growing diversity of input data modalities prevents incorporating all modalities into LLMs, especially when LLMs are deployed on resource-constrained edge devices for embodied AI applications. Instead, a better option is to adaptively involve only the useful modalities at runtime, depending on the current environmental contexts and task requirements. For such modality adaptation, existing work adopts fixed connections between encoders and the LLM’s input layer, leading to high training cost at runtime and ineffective cross-modal interaction. In this paper, we address these limitations by presenting mPnP-LLM, a new technique that allows fully elastic, automated and prompt runtime modality adaptation, by connecting unimodal encoders to a flexible set of last LLM blocks and making such latent connections fully trainable at runtime. Experiments over the nuScenes-QA dataset show that mPnP-LLM can achieve up to 3.7x FLOPs reduction and 30% GPU memory usage reduction, while retaining on-par accuracy with the existing schemes. Under the same compute budget, mPnP-LLM improves the task accuracy by up to 4% compared to the best existing scheme.

arxiv情報

著者 Kai Huang,Boyuan Yang,Wei Gao
発行日 2023-12-13 04:08:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク