要約
大規模な疎活性化モデルは、複数のドメインで優れた性能を獲得している。しかし、このようなモデルは通常、一度に単一のモダリティで学習される。我々は、マルチモーダル学習が可能なスパース混合エキスパートモデル、Language-Image MoE、LIMoEを発表する。LIMoEは画像とテキストの両方を同時に受け入れ、対照的な損失を用いて学習させることができる。エキスパート層はモダリティの適切な分割を学習できるため、MoEはマルチモーダルバックボーンに自然にフィットする。しかし、新たな課題として、学習の安定性とバランスの取れたエキスパート層の利用が挙げられるが、我々はエントロピーに基づく正則化スキームを提案する。そのため、エントロピーに基づく正則化スキームを提案する。複数のスケールにおいて、我々は同等の計算コストで密なモデルよりも顕著な性能向上を実証した。CLIP-L/14と同等に学習させたLIMoE-L/16は、ゼロショットImageNet精度で78.6%(対76.2%)を達成し、さらにH/14(追加データあり)に拡張すると、より大きなカスタムパーモダリティバックボーンと事前学習スキームを用いた最先端の手法と同等の、84.1%を達成しました。LIMoEの定量的・定性的な挙動を分析し、モダリティの扱いの違いや、モダリティ固有の専門家の有機的な出現などの現象を示す。
要約(オリジナル)
Large sparsely-activated models have obtained excellent performance in multiple domains. However, such models are typically trained on a single modality at a time. We present the Language-Image MoE, LIMoE, a sparse mixture of experts model capable of multimodal learning. LIMoE accepts both images and text simultaneously, while being trained using a contrastive loss. MoEs are a natural fit for a multimodal backbone, since expert layers can learn an appropriate partitioning of modalities. However, new challenges arise; in particular, training stability and balanced expert utilization, for which we propose an entropy-based regularization scheme. Across multiple scales, we demonstrate remarkable performance improvement over dense models of equivalent computational cost. LIMoE-L/16 trained comparably to CLIP-L/14 achieves 78.6% zero-shot ImageNet accuracy (vs. 76.2%), and when further scaled to H/14 (with additional data) it achieves 84.1%, comparable to state-of-the-art methods which use larger custom per-modality backbones and pre-training schemes. We analyse the quantitative and qualitative behavior of LIMoE, and demonstrate phenomena such as differing treatment of the modalities and the organic emergence of modality-specific experts.
arxiv情報
著者 | Basil Mustafa,Carlos Riquelme,Joan Puigcerver,Rodolphe Jenatton,Neil Houlsby |
発行日 | 2022-06-06 17:51:59+00:00 |
arxivサイト | arxiv_id(pdf) |