要約
複雑な視覚情報を正確に理解することは、視覚言語モデル (VLM) にとって非常に重要です。
画像の解像度を高めると視覚認識能力が向上し、幻覚が軽減されるだけでなく、テキストが多いタスクや文書分析など、高解像度が必要なタスクのパフォーマンスも向上します。
このペーパーでは、高解像度のビジュアル入力を処理するために特別に設計された、VisualRWKV モデル ファミリの 2 つの進歩である VisualRWKV-HD と VisualRWKV-UHD を紹介します。
VisualRWKV-HD では、入力シーケンスの長さを拡張することなく、高解像度ビジョン エンコーダと低解像度エンコーダを効果的に統合するロスレス ダウンサンプリング手法を開発しました。
VisualRWKV-UHD モデルでは、画像を 4 つのセグメントに分割し、元の画像と再結合することで画像表現を強化しました。
この手法により、モデルに高解像度と低解像度の両方の機能を組み込むことができ、粗い情報と細かい情報のバランスが効果的に得られます。
その結果、このモデルは最大 4096 x 4096 ピクセルの解像度をサポートし、より詳細で包括的な視覚処理機能を提供します。
VisualRWKV-HD と VisualRWKV-UHD はどちらも、VLM ベンチマークで優れた結果を達成するだけでなく、テキストの多いタスクのパフォーマンスが大幅に向上しています。
要約(オリジナル)
Accurately understanding complex visual information is crucial for visual language models (VLMs). Enhancing image resolution can improve visual perception capabilities, not only reducing hallucinations but also boosting performance in tasks that demand high resolution, such as text-rich or document analysis. In this paper, we present VisualRWKV-HD and VisualRWKV-UHD, two advancements in the VisualRWKV model family, specifically designed to process high-resolution visual inputs. For VisualRWKV-HD, we developed a lossless downsampling method to effectively integrate a high-resolution vision encoder with low-resolution encoders, without extending the input sequence length. For the VisualRWKV-UHD model, we enhanced image representation by dividing the image into four segments, which are then recombined with the original image. This technique allows the model to incorporate both high-resolution and low-resolution features, effectively balancing coarse and fine-grained information. As a result, the model supports resolutions up to 4096 x 4096 pixels, offering a more detailed and comprehensive visual processing capability. Both VisualRWKV-HD and VisualRWKV-UHD not only achieve strong results on VLM benchmarks but also show marked improvements in performance for text-rich tasks.
arxiv情報
著者 | Zihang Li,Haowen Hou |
発行日 | 2024-10-15 14:49:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google