要約
大規模なマルチモーダルモデル(LMMS)では、非言語モダリティ(視覚表現など)の認識は、通常、大規模な言語モデル(LLM)の強力な推論能力と同等ではなく、LMMSのパフォーマンスを下流タスクに挑戦することを阻止します。
この弱点は、VisionエンコーダーをExperts(MOE)に置き換えることで最近緩和されました。
マルチモーダルMOEのパフォーマンスは、そのルーターに大きく依存します。このルーターは、各入力の異なる専門家の表現を再重視および混合します。
ただし、エンドツーエンドの訓練されたルーターは、すべてのテストサンプルに最適なルーティングウェイトを常に生成するとは限らないことがわかります。
ギャップを埋めるために、テスト時間のベクトルをテスト時にルーティングウェイトのベクトルを局所的に最適化する斬新で効率的な方法(R2-T2)を提案します。テストサンプルの近傍で正しく予測されたサンプルのベクトルに移動することにより、
さまざまな最適化目標と近隣検索スペースを持つ3つのR2-T2戦略を提案します。
R2-T2は、ベースモデルパラメーターをトレーニングすることなく、多様なタスクの挑戦的なベンチマークで最先端のLMMSのパフォーマンスを一貫して大幅に改善します。
要約(オリジナル)
In large multimodal models (LMMs), the perception of non-language modalities (e.g., visual representations) is usually not on par with the large language models (LLMs)’ powerful reasoning capabilities, deterring LMMs’ performance on challenging downstream tasks. This weakness has been recently mitigated by replacing the vision encoder with a mixture-of-experts (MoE), which provides rich, multi-granularity, and diverse representations required by diverse downstream tasks. The performance of multimodal MoE largely depends on its router, which reweights and mixes the representations of different experts for each input. However, we find that the end-to-end trained router does not always produce the optimal routing weights for every test sample. To bridge the gap, we propose a novel and efficient method ‘Re-Routing in Test-Time(R2-T2) that locally optimizes the vector of routing weights in test-time by moving it toward those vectors of the correctly predicted samples in a neighborhood of the test sample. We propose three R2-T2 strategies with different optimization objectives and neighbor-search spaces. R2-T2 consistently and greatly improves state-of-the-art LMMs’ performance on challenging benchmarks of diverse tasks, without training any base-model parameters.
arxiv情報
著者 | Zhongyang Li,Ziyue Li,Tianyi Zhou |
発行日 | 2025-02-27 18:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google