要約
低ランク適応 (LoRA) のための専門家混合 (MoE) アーキテクチャの構築は、そのモジュラー設計と優れたパフォーマンスのため、パラメーター効率の良い微調整 (PEFT) の潜在的な方向性として浮上しています。
ただし、専門家の数を増やすだけでは大幅な改善は保証できません。
この研究では、まず定性分析を行って、専門家がバニラ MoE で同様の表現に陥り、モジュール設計の能力と計算効率が制限されていることを示します。
さらに言えば、私たちの分析により、以前の MoE バリアントのパフォーマンスは、専門家間の多様性の欠如によって制限されている可能性があることが明らかになりました。
これらの発見に動機付けられて、私たちは多様性を促進するために直交的な方法で専門家を訓練するリソース効率の高いMoEの変形であるOrthogonal Mixture-of-Experts(OMoE)を提案します。
OMoE では、専門家の表現がシュティーフェル多様体内にあることを強制するためにグラム・シュミットのプロセスが活用されています。
OMoE は、直交制約をアーキテクチャに直接適用することで、最適性を損なうことなく学習目標を変更しません。
私たちの方法はシンプルであり、通常の MoE モデルと比較して専門家の負担が最小限に抑えられるため、メモリのボトルネックが軽減されます。
さまざまな常識推論ベンチマークの実験により、OMoE は必要な専門家の数を大幅に削減しながら、最先端の手法と比較して安定した効率的なパフォーマンス向上を一貫して達成できることが実証されました。
要約(オリジナル)
Building mixture-of-experts (MoE) architecture for Low-rank adaptation (LoRA) is emerging as a potential direction in parameter-efficient fine-tuning (PEFT) for its modular design and remarkable performance. However, simply stacking the number of experts cannot guarantee significant improvement. In this work, we first conduct qualitative analysis to indicate that experts collapse to similar representations in vanilla MoE, limiting the capacity of modular design and computational efficiency. Ulteriorly, Our analysis reveals that the performance of previous MoE variants maybe limited by a lack of diversity among experts. Motivated by these findings, we propose Orthogonal Mixture-of-Experts (OMoE), a resource-efficient MoE variant that trains experts in an orthogonal manner to promote diversity. In OMoE, a Gram-Schmidt process is leveraged to enforce that the experts’ representations lie within the Stiefel manifold. By applying orthogonal constraints directly to the architecture, OMoE keeps the learning objective unchanged, without compromising optimality. Our method is simple and alleviates memory bottlenecks, as it incurs minimal experts compared to vanilla MoE models. Experiments on diverse commonsense reasoning benchmarks demonstrate that OMoE can consistently achieve stable and efficient performance improvement when compared with the state-of-the-art methods while significantly reducing the number of required experts.
arxiv情報
著者 | Jinyuan Feng,Zhiqiang Pu,Tianyi Hu,Dongmin Li,Xiaolin Ai,Huimu Wang |
発行日 | 2025-01-17 09:27:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google