要約
過去1年間で、大規模な(> 100Bパラメーター)混合物(MOE)モデルがオープンドメインでますます一般的になっています。
それらの利点は効率性の点でしばしば組み立てられていますが、以前の研究では、ルーティング動作による機能的区別も調査されています。
大型MOEモデルの専門家ルーティングが入力のセマンティクスの影響を受けるかどうかを調査します。
これをテストするために、2つの制御された実験を設計します。
まず、文ペアのアクティベーションを、同じまたは異なる感覚で使用される共有ターゲットワードと比較します。
次に、コンテキストを修正し、ターゲットワードを意味的に類似したまたは異なる代替案に置き換えます。
これらの条件全体で専門家の重複を比較すると、大規模なMOEモデルにおけるセマンティックルーティングの明確で統計的に有意な証拠が明らかになります。
要約(オリジナル)
In the past year, large (>100B parameter) mixture-of-expert (MoE) models have become increasingly common in the open domain. While their advantages are often framed in terms of efficiency, prior work has also explored functional differentiation through routing behavior. We investigate whether expert routing in large MoE models is influenced by the semantics of the inputs. To test this, we design two controlled experiments. First, we compare activations on sentence pairs with a shared target word used in the same or different senses. Second, we fix context and substitute the target word with semantically similar or dissimilar alternatives. Comparing expert overlap across these conditions reveals clear, statistically significant evidence of semantic routing in large MoE models.
arxiv情報
著者 | Matthew Lyle Olson,Neale Ratzlaff,Musashi Hinck,Man Luo,Sungduk Yu,Chendi Xue,Vasudev Lal |
発行日 | 2025-05-21 16:32:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google