要約
マルチモーダル言語モデル(MLMS)は、特定のアダプターを介してビジョンエンコーダーを大規模な言語モデルと結合することにより、視覚情報とテキスト情報を統合します。
既存のアプローチは一般的に単一の事前に訓練されたビジョンエンコーダーに依存していますが、個別のドメインでモデルのパフォーマンスを高めることができる特殊なエンコーダーの大きなばらつきがあります。
この作業では、特殊なマルチモーダルタスク用に複数の事前訓練を受けたエンコーダを活用するためのシンプルで効果的なアプローチを移動(ビジョンエンコーダーの混合)を提案します。
MOVEは、Unichat、Internvit、Texifyなどの候補者間で最も適切なエンコーダーに入力を自動的にルーティングし、Chartqa、Mmbench、MMMUなどの多様なベンチマークでパフォーマンスを向上させます。
実験結果は、動きが高解像度の画像の画像スライスの複雑さを発生させることなく競争の精度を達成することを示しています。
要約(オリジナル)
Multimodal language models (MLMs) integrate visual and textual information by coupling a vision encoder with a large language model through the specific adapter. While existing approaches commonly rely on a single pre-trained vision encoder, there is a great variability of specialized encoders that can boost model’s performance in distinct domains. In this work, we propose MOVE (Mixture of Vision Encoders) a simple yet effective approach to leverage multiple pre-trained encoders for specialized multimodal tasks. MOVE automatically routes inputs to the most appropriate encoder among candidates such as Unichat, InternViT, and Texify, thereby enhancing performance across a diverse set of benchmarks, including ChartQA, MMBench, and MMMU. Experimental results demonstrate that MOVE achieves competitive accuracy without incurring the complexities of image slicing for high-resolution images.
arxiv情報
著者 | Matvey Skripkin,Elizaveta Goncharova,Dmitrii Tarasov,Andrey Kuznetsov |
発行日 | 2025-02-21 11:05:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google