Multi-modal Auto-regressive Modeling via Visual Words

要約

大規模言語モデル (LLM) は、注釈のない大量のテキスト コーパスに対して実行される自己回帰モデリング アプローチの恩恵を受け、強力な知覚能力と推論能力を実証します。
しかし、自己回帰モデリングをマルチモーダルシナリオに拡張して大規模マルチモーダルモデル(LMM)を構築するには、画像情報が連続的な視覚的埋め込みとしてLMM内で処理されるため、離散的な教師付きラベルを取得できないという大きな問題があります。
分類のために。
この論文では、統一された目的を持ったマルチモーダル自己回帰モデリングを初めて実行することに成功しました。
具体的には、視覚的特徴をLLMの語彙上の確率分布にマッピングし、視覚的モデリングのための監視情報を提供するビジュアルワードの概念を提案します。
さらに、LMM 内の意味空間における視覚的特徴の分布と、テキスト埋め込みを使用して視覚的情報を表現する可能性を調査します。
5 つの VQA タスクと 4 つのベンチマーク ツールキットに関する実験結果とアブレーション研究により、私たちが提案するアプローチの強力なパフォーマンスが検証されています。

要約(オリジナル)

Large Language Models (LLMs), benefiting from the auto-regressive modelling approach performed on massive unannotated texts corpora, demonstrates powerful perceptual and reasoning capabilities. However, as for extending auto-regressive modelling to multi-modal scenarios to build Large Multi-modal Models (LMMs), there lies a great difficulty that the image information is processed in the LMM as continuous visual embeddings, which cannot obtain discrete supervised labels for classification. In this paper, we successfully perform multi-modal auto-regressive modeling with a unified objective for the first time. Specifically, we propose the concept of visual words, which maps the visual features to probability distributions over LLM’s vocabulary, providing supervision information for visual modelling. We further explore the distribution of visual features in the semantic space within LMM and the possibility of using text embeddings to represent visual information. Experimental results and ablation studies on 5 VQA tasks and 4 benchmark toolkits validate the powerful performance of our proposed approach.

arxiv情報

著者 Tianshuo Peng,Zuchao Li,Lefei Zhang,Hai Zhao,Ping Wang,Bo Du
発行日 2024-03-12 14:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク