On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning

要約

言語および視覚アシスタントの最近の進歩は素晴らしい機能を示していますが、透明性の欠如に悩まされており、より広範な研究と再現性が制限されています。
オープンソース モデルは一般的な画像タスクを効果的に処理しますが、複雑な視覚的に位置するテキストを理解するという高い計算要求という課題に直面しています。
このようなタスクでは、多くの場合、高解像度の情報を活用するために、トークン入力の増加と大規模なビジョン モジュールが必要になります。
モデルのサイズとデータの重要性のバランスを取ることは、未解決の問題のままです。
この研究は、主要なコンポーネントを特定し、制約された推論コストで効率的なモデルを作成することにより、視覚言語モデルの設計を再定義することを目的としています。
データセットを戦略的に策定し、ビジョンモジュールを最適化し、監視技術を強化することで、高いパフォーマンスを維持しながら推論スループットの大幅な向上を実現します。
160M から 13B パラメータにわたるモデルにわたる広範な実験により、モデルの最適化に関する洞察が得られます。
コードベース、モデル、データセットを https://github.com/naver-ai/elva で完全にオープンソース化します。

要約(オリジナル)

Recent advancements in language and vision assistants have showcased impressive capabilities but suffer from a lack of transparency, limiting broader research and reproducibility. While open-source models handle general image tasks effectively, they face challenges with the high computational demands of complex visually-situated text understanding. Such tasks often require increased token inputs and large vision modules to harness high-resolution information. Striking a balance between model size and data importance remains an open question. This study aims to redefine the design of vision-language models by identifying key components and creating efficient models with constrained inference costs. By strategically formulating datasets, optimizing vision modules, and enhancing supervision techniques, we achieve significant improvements in inference throughput while maintaining high performance. Extensive experiments across models ranging from 160M to 13B parameters offer insights into model optimization. We will fully open-source our codebase, models, and datasets at https://github.com/naver-ai/elva .

arxiv情報

著者 Geewook Kim,Minjoon Seo
発行日 2024-06-17 17:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク