要約
自然言語処理 (NLP) の分野は、近年、特に大規模な視覚言語モデル (VLM) の開発において大きな進歩を遂げました。
これらのモデルは、テキストと視覚情報の間のギャップを埋め、マルチメディア データをより包括的に理解できるようにすることを目的としています。
ただし、これらのモデルがより大規模で複雑になるにつれて、トレーニングと展開がより困難になります。
この課題に対処するための 1 つのアプローチは、スパースゲート エキスパート混合 (MoE) 手法を使用することです。これは、モデルを、共同でタスクを解決できる、より小さな特殊なサブモデルに分割します。
このホワイト ペーパーでは、視覚言語モデルのスケーリングにおける MoE の有効性を調査し、同等の計算コストの高密度モデルを超えるさまざまなベンチマークで最先端のパフォーマンスを達成する可能性を実証します。
私たちの研究は、MoE モデルのトレーニングの安定化、モデルの解釈可能性に対する MoE の影響の理解、および VLM をスケーリングする際の計算パフォーマンス間のトレードオフのバランスを取るための貴重な洞察を提供します。
私たちの研究が、大規模な視覚言語モデルやその他のマルチモーダル機械学習アプリケーションをスケーリングするための MoE の使用に関するさらなる研究を刺激することを願っています。
要約(オリジナル)
The field of natural language processing (NLP) has made significant strides in recent years, particularly in the development of large-scale vision-language models (VLMs). These models aim to bridge the gap between text and visual information, enabling a more comprehensive understanding of multimedia data. However, as these models become larger and more complex, they also become more challenging to train and deploy. One approach to addressing this challenge is the use of sparsely-gated mixture-of-experts (MoE) techniques, which divide the model into smaller, specialized sub-models that can jointly solve a task. In this paper, we explore the effectiveness of MoE in scaling vision-language models, demonstrating its potential to achieve state-of-the-art performance on a range of benchmarks over dense models of equivalent computational cost. Our research offers valuable insights into stabilizing the training of MoE models, understanding the impact of MoE on model interpretability, and balancing the trade-offs between compute performance when scaling VLMs. We hope our work will inspire further research into the use of MoE for scaling large-scale vision-language models and other multimodal machine learning applications.
arxiv情報
著者 | Sheng Shen,Zhewei Yao,Chunyuan Li,Trevor Darrell,Kurt Keutzer,Yuxiong He |
発行日 | 2023-03-13 16:00:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google