OtterHD: A High-Resolution Multi-modality Model

要約

この論文では、Fuyu-8B から進化した革新的なマルチモーダル モデルである OtterHD-8B を紹介します。特に、高解像度の視覚入力を粒度の高い精度で解釈するように設計されています。
固定サイズのビジョンエンコーダによって制約される従来のモデルとは異なり、OtterHD-8B は柔軟な入力寸法を処理する能力を誇り、さまざまな推論要件にわたる汎用性を保証します。
このモデルに加えて、小さなオブジェクトの細部と空間的関係を識別するモデルの能力を精査するために設計された評価フレームワークである MagnifierBench を紹介します。
私たちの比較分析により、現在の主要モデルはこのベンチマークでは伸び悩んでいますが、OtterHD-8B は、特に高解像度入力を直接処理する場合に、同等のモデルを大幅に上回っていることがわかりました。
この調査結果は、さまざまなモデル間の視覚情報処理の構造的な差異と、ビジョン エンコーダーのトレーニング前の解像度の違いがそのようなベンチマーク内のモデルの有効性に及ぼす影響を明らかにします。
私たちの研究は、大規模なマルチモーダル モデルにおける柔軟性と高解像度入力機能の重要な役割を強調するとともに、複雑なビジュアル データを処理するための Fuyu アーキテクチャのシンプルさに内在する可能性を例示しています。

要約(オリジナル)

In this paper, we present OtterHD-8B, an innovative multimodal model evolved from Fuyu-8B, specifically engineered to interpret high-resolution visual inputs with granular precision. Unlike conventional models that are constrained by fixed-size vision encoders, OtterHD-8B boasts the ability to handle flexible input dimensions, ensuring its versatility across various inference requirements. Alongside this model, we introduce MagnifierBench, an evaluation framework designed to scrutinize models’ ability to discern minute details and spatial relationships of small objects. Our comparative analysis reveals that while current leading models falter on this benchmark, OtterHD-8B, particularly when directly processing high-resolution inputs, outperforms its counterparts by a substantial margin. The findings illuminate the structural variances in visual information processing among different models and the influence that the vision encoders’ pre-training resolution disparities have on model effectiveness within such benchmarks. Our study highlights the critical role of flexibility and high-resolution input capabilities in large multimodal models and also exemplifies the potential inherent in the Fuyu architecture’s simplicity for handling complex visual data.

arxiv情報

著者 Bo Li,Peiyuan Zhang,Jingkang Yang,Yuanhan Zhang,Fanyi Pu,Ziwei Liu
発行日 2023-11-07 18:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク