要約
LLMをMLLMに変換するための新しいパラダイムであるLora(Vora)としてのビジョンを紹介します。
Visionエンコードの外部ビジョンモジュールに依存する一般的なMLLMアーキテクチャとは異なり、Voraは視覚固有のLORA層をLLMに直接統合することにより、視覚能力を内部化します。
この設計により、追加されたパラメーターを推論中にシームレスにLLMにマージし、構造の複雑さを排除し、計算オーバーヘッドを最小化できます。
さらに、柔軟なコンテキストを処理するLLMの能力を継承すると、VORAは任意の解像度で入力を処理できます。
VORAの視覚能力をさらに強化するために、視覚的なプライアーを事前に訓練したVITからLORA層に転送するブロックごとの蒸留方法を導入し、視覚的知識を注入することでトレーニングを効果的に加速します。
さらに、双方向の注意マスクを適用して、画像のコンテキスト情報をより適切にキャプチャします。
追加のトレーニング前のデータを追加すると、VORAは従来のエンコードベースのMLLMと同等に機能できることを実証しました。
すべてのトレーニングデータ、コード、およびモデルの重みは、https://github.com/hon-wong/voraでリリースされます。
要約(オリジナル)
We introduce Vision as LoRA (VoRA), a novel paradigm for transforming an LLM into an MLLM. Unlike prevalent MLLM architectures that rely on external vision modules for vision encoding, VoRA internalizes visual capabilities by integrating vision-specific LoRA layers directly into the LLM. This design allows the added parameters to be seamlessly merged into the LLM during inference, eliminating structural complexity and minimizing computational overhead. Moreover, inheriting the LLM’s ability of handling flexible context, VoRA can process inputs at arbitrary resolutions. To further strengthen VoRA’s visual capabilities, we introduce a block-wise distillation method that transfers visual priors from a pre-trained ViT into the LoRA layers, effectively accelerating training by injecting visual knowledge. Additionally, we apply bi-directional attention masks to better capture the context information of an image. We successfully demonstrate that with additional pre-training data, VoRA can perform comparably with conventional encode-based MLLMs. All training data, codes, and model weights will be released at https://github.com/Hon-Wong/VoRA.
arxiv情報
著者 | Han Wang,Yongjie Ye,Bingru Li,Yuxiang Nie,Jinghui Lu,Jingqun Tang,Yanjie Wang,Can Huang |
発行日 | 2025-03-26 16:15:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google