要約
最近の研究では、大規模言語モデル (LLM) が、命令チューニングを通じてゼロショット汎化機能をマルチモーダル学習に拡張できることが実証されました。
より多くのモダリティと下流タスクが導入されると、マイナスの競合や干渉がパフォーマンスに悪影響を与える可能性があります。
この現象はこれまでの研究では見落とされてきましたが、私たちは、マルチモーダル大規模言語モデル (MLLM) を使用したマルチモーダル学習の包括的な研究と実験のために、Octavius と呼ばれる新規で拡張可能なフレームワークを提案します。
具体的には、よく知られた専門家混合 (MoE) と代表的な PEFT 技術の 1 つである LoRA を組み合わせて、マルチモーダル学習用に LoRA-MoE と呼ばれる新しい LLM ベースのデコーダーを設計します。
私たちの知る限り、私たちはこの問題に対処するために MLLM に MoE を導入する先駆的な取り組みの 1 つです。
実験結果 (約 20% の改善) は、さまざまな 2D および 3D の下流タスクにおける設計の有効性と多用途性を示しています。
コードとデータセットは https://openlamm.github.io/paper_list/Octavius で入手できます。
要約(オリジナル)
Recent studies have demonstrated Large Language Models (LLMs) can extend their zero-shot generalization capabilities to multimodal learning through instruction tuning. As more modalities and downstream tasks are introduced, negative conflicts and interference may have a worse impact on performance. While this phenomenon has been overlooked in previous work, we propose a novel and extensible framework, called Octavius, for comprehensive studies and experimentation on multimodal learning with Multimodal Large Language Models (MLLMs). Specifically, we combine the well-known Mixture-of-Experts (MoE) and one of the representative PEFT techniques, i.e., LoRA, designing a novel LLM-based decoder, called LoRA-MoE, for multimodal learning. To the best of our knowledge, we are one of the pioneering efforts to introduce MoE into MLLMs to address this problem. The experimental results (about 20% improvement) have shown the effectiveness and versatility of our design in various 2D and 3D downstream tasks. Code and datasets are available at https://openlamm.github.io/paper_list/Octavius.
arxiv情報
著者 | Zeren Chen,Ziqin Wang,Zhen Wang,Huayang Liu,Zhenfei Yin,Si Liu,Lu Sheng,Wanli Ouyang,Yu Qiao,Jing Shao |
発行日 | 2024-03-13 12:24:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google