Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer

要約

Mixture of Experts (MoE) は、大幅な追加の計算コストをかけずにモデルの能力を最大化する分割統治の原則に基づき、ディープ ラーニングで非常に成功した手法として登場しました。
大規模言語モデル (LLM) の時代においても、MoE は重要な役割を果たし続けており、一部の研究者は GPT-4 が多様な推論結果を保証するために MoE 構造を採用していると指摘しています。
しかし、教育省はパフォーマンスの低下の影響を受けやすく、特に専門家間の不均衡と均質な代表の問題で顕著です。
これまでの研究では不均衡の問題が広く取り上げられてきましたが、均質な表現という課題は未解決のままです。
この研究では、同種表現の問題に光を当てました。この問題では、教育省の専門家が専門化できず、多様性に欠けており、その結果、表現にもどかしいほど高い類似性が生じています (うまく機能した教育省モデルでは最大 99%)。
この問題は教育省の表現力を制限しており、その本来の意図に反すると我々は主張する。
この問題に取り組むために、私たちは直接的でありながら非常に効果的なソリューション、つまり直交エキスパート オプティマイザーである OMoE を提案します。
さらに、各専門家が他の専門家が展開する部分空間と直交する方向に更新することを奨励する交互トレーニング戦略を導入します。
私たちのアルゴリズムは、2 つの重要な方法で MoE トレーニングを促進します。1 つ目は表現の多様性を明示的に強化し、2 つ目は直交重みの計算中に暗黙的に専門家間の対話を促進します。
広範な実験を通じて、私たちが提案した最適化アルゴリズムが、GLUE ベンチマーク、SuperGLUE ベンチマーク、質問応答タスク、および名前エンティティ認識タスクにおける MoE モデルの微調整のパフォーマンスを大幅に向上させることを実証しました。

要約(オリジナル)

The Mixture of Experts (MoE) has emerged as a highly successful technique in deep learning, based on the principle of divide-and-conquer to maximize model capacity without significant additional computational cost. Even in the era of large-scale language models (LLMs), MoE continues to play a crucial role, as some researchers have indicated that GPT-4 adopts the MoE structure to ensure diverse inference results. However, MoE is susceptible to performance degeneracy, particularly evident in the issues of imbalance and homogeneous representation among experts. While previous studies have extensively addressed the problem of imbalance, the challenge of homogeneous representation remains unresolved. In this study, we shed light on the homogeneous representation problem, wherein experts in the MoE fail to specialize and lack diversity, leading to frustratingly high similarities in their representations (up to 99\% in a well-performed MoE model). This problem restricts the expressive power of the MoE and, we argue, contradicts its original intention. To tackle this issue, we propose a straightforward yet highly effective solution: OMoE, an orthogonal expert optimizer. Additionally, we introduce an alternating training strategy that encourages each expert to update in a direction orthogonal to the subspace spanned by other experts. Our algorithm facilitates MoE training in two key ways: firstly, it explicitly enhances representation diversity, and secondly, it implicitly fosters interaction between experts during orthogonal weights computation. Through extensive experiments, we demonstrate that our proposed optimization algorithm significantly improves the performance of fine-tuning the MoE model on the GLUE benchmark, SuperGLUE benchmark, question-answering task, and name entity recognition tasks.

arxiv情報

著者 Boan Liu,Liang Ding,Li Shen,Keqin Peng,Yu Cao,Dazhao Cheng,Dacheng Tao
発行日 2024-08-30 13:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク