ID-Align: RoPE-Conscious Position Remapping for Dynamic High-Resolution Adaptation in Vision-Language Models

要約

現在、ビジョン言語モデル(VLMS)パフォーマンスを強化するための一般的なアプローチは、画像の高解像度バージョンとサムネイルの両方を同時にエンコードすることです。
効果的ですが、この方法は多数の画像トークンを生成します。
広く使用されている回転位置埋め込み(ロープ)と組み合わせると、その長期的な減衰特性は、高解像度トークンとサムネイルトークン、およびテキストと画像の間の相互作用を妨げます。
これらの問題に対処するために、ID-Alignを提案します。これは、ポジションIDを並べ替えることでこれらの問題を軽減します。
この方法では、高解像度トークンは、位置指標の過剰拡張を制約しながら、対応するサムネイルトークンからIDを継承します。
Llava-Nextフレームワーク内で実施された実験は、MMBenchの関係推論タスクと複数のベンチマークにわたる顕著な利益の6.09%の強化を含む、IDアライインが大幅に改善されることを示しています。
私たちのコードは、次のリンクで入手できます:https://github.com/zooblastlbz/id-align。

要約(オリジナル)

Currently, a prevalent approach for enhancing Vision-Language Models (VLMs) performance is to encode both the high-resolution version and the thumbnail of an image simultaneously. While effective, this method generates a large number of image tokens. When combined with the widely used Rotary Position Embedding (RoPE), its long-term decay property hinders the interaction between high-resolution tokens and thumbnail tokens, as well as between text and image. To address these issues, we propose ID-Align, which alleviates these problems by reordering position IDs. In this method, high-resolution tokens inherit IDs from their corresponding thumbnail token while constraining the overexpansion of positional indices. Our experiments conducted within the LLaVA-Next framework demonstrate that ID-Align achieves significant improvements, including a 6.09% enhancement on MMBench’s relation reasoning tasks and notable gains across multiple benchmarks. Our code is available at the following link: https://github.com/zooblastlbz/ID-Align.

arxiv情報

著者 Bozhou Li,Wentao Zhang
発行日 2025-05-27 17:36:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク