HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

要約

高解像度入力により、Large Vision-Language Model (LVLM) が視覚的な詳細を識別できるようになり、理解能力が向上します。
高解像度の入力によって生じるトレーニングと計算のコストを削減するための 1 つの有望な方向性は、スライディング ウィンドウを使用して入力を均一なパッ​​チにスライスし、それぞれが十分にトレーニングされたビジョン エンコーダーの入力サイズと一致するようにすることです。
このスライス戦略は効率的ではありますが、元の入力の断片化につながります。つまり、コンテキスト情報と空間ジオメトリの連続性がパッチ間で失われ、パッチ間のコンテキスト認識や位置固有のタスクのパフォーマンスに悪影響を及ぼします。
これらの欠点を克服するために、元のコンテキスト情報や幾何情報を変更することなく、あらゆるサイズの高解像度入力を効率的に処理するように設計された新しいフレームワークである HiRes-LLaVA を導入します。
HiRes-LLaVA は 2 つの革新的なコンポーネントで構成されています。(i) スライスされたパッチを元の形式に再構築し、ダウンアップサンプリングと畳み込み層を介してグローバルとローカルの両方の特徴を効率的に抽出する SliceRestore アダプター、および (ii) セルフマイニング サンプラー
ビジョン トークン自体に基づいてビジョン トークンを圧縮し、元のコンテキストと位置情報を維持しながらトレーニングのオーバーヘッドを削減します。
コンテキストの断片化を処理する能力を評価するために、エッジ関連タスクと位置関連タスクで構成される新しいベンチマーク EntityGrid-QA を構築します。
私たちの包括的な実験では、既存の公開ベンチマークと EntityGrid-QA の両方、特にドキュメント指向のタスクにおける HiRes-LLaVA の優位性を実証し、高解像度入力を処理するための新しい標準を確立しました。

要約(オリジナル)

High-resolution inputs enable Large Vision-Language Models (LVLMs) to discern finer visual details, enhancing their comprehension capabilities. To reduce the training and computation costs caused by high-resolution input, one promising direction is to use sliding windows to slice the input into uniform patches, each matching the input size of the well-trained vision encoder. Although efficient, this slicing strategy leads to the fragmentation of original input, i.e., the continuity of contextual information and spatial geometry is lost across patches, adversely affecting performance in cross-patch context perception and position-specific tasks. To overcome these shortcomings, we introduce HiRes-LLaVA, a novel framework designed to efficiently process any size of high-resolution input without altering the original contextual and geometric information. HiRes-LLaVA comprises two innovative components: (i) a SliceRestore adapter that reconstructs sliced patches into their original form, efficiently extracting both global and local features via down-up-sampling and convolution layers, and (ii) a Self-Mining Sampler to compresses the vision tokens based on themselves, preserving the original context and positional information while reducing training overhead. To assess the ability of handling context fragmentation, we construct a new benchmark, EntityGrid-QA, consisting of edge-related and position-related tasks. Our comprehensive experiments demonstrate the superiority of HiRes-LLaVA on both existing public benchmarks and on EntityGrid-QA, particularly on document-oriented tasks, establishing new standards for handling high-resolution inputs.

arxiv情報

著者 Runhui Huang,Xinpeng Ding,Chunwei Wang,Jianhua Han,Yulong Liu,Hengshuang Zhao,Hang Xu,Lu Hou,Wei Zhang,Xiaodan Liang
発行日 2024-07-11 17:42:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク