要約
マルチモーダル言語モデル(MLM)は、特殊なモデルが得意とする基本的な視覚知覚タスクにおいて、依然として課題に直面している。3次元構造に関する推論を必要とするタスクでは奥行き推定が、2次元物体インスタンスに関する推論では物体検出が有効である。しかし、MLMは推論するための中間的な奥行きや箱を生成することができない。関連するデータでMLMを微調整することはうまく一般化できないし、特殊なビジョンツールに計算を委託することは、計算集約的でメモリ効率が悪すぎる。この問題に対処するため、我々はパーセプション・トークンを導入する。パーセプション・トークンは、言語が不十分な推論タスクを支援するために設計された、本質的な画像表現である。パーセプション・トークンは、言語モデルにおける思考の連鎖を促すような、補助的な推論トークンとして機能する。例えば、奥行きに関するタスクにおいて、パーセプショントークンで拡張されたMLMは、トークンとして奥行きマップを生成することで推論を行い、効率的に問題を解くことができる。我々は、視覚入力に対する推論を改善するために、知覚トークンでMLMを補強する学習方法であるAURORAを提案する。AURORAはVQVAEを活用し、デプスマップなどの中間的な画像表現をトークン化されたフォーマットとバウンディングボックストークンに変換し、マルチタスク学習フレームワークで利用する。AURORAは計数ベンチマークにおいて顕著な改善を達成した:BLINKで+10.8%、CVBenchで+11.3%、SEED-Benchで+8.3%であり、データセット間の汎化において微調整アプローチを上回る。また、相対的な深度も向上しており、BLINKでは+6%以上です。パーセプショントークンにより、AURORAは言語ベースの推論を超えてMLMの範囲を拡大し、より効果的な視覚的推論機能への道を開きます。
要約(オリジナル)
Multimodal language models (MLMs) still face challenges in fundamental visual perception tasks where specialized models excel. Tasks requiring reasoning about 3D structures benefit from depth estimation, and reasoning about 2D object instances benefits from object detection. Yet, MLMs can not produce intermediate depth or boxes to reason over. Finetuning MLMs on relevant data doesn’t generalize well and outsourcing computation to specialized vision tools is too compute-intensive and memory-inefficient. To address this, we introduce Perception Tokens, intrinsic image representations designed to assist reasoning tasks where language is insufficient. Perception tokens act as auxiliary reasoning tokens, akin to chain-of-thought prompts in language models. For example, in a depth-related task, an MLM augmented with perception tokens can reason by generating a depth map as tokens, enabling it to solve the problem effectively. We propose AURORA, a training method that augments MLMs with perception tokens for improved reasoning over visual inputs. AURORA leverages a VQVAE to transform intermediate image representations, such as depth maps into a tokenized format and bounding box tokens, which is then used in a multi-task training framework. AURORA achieves notable improvements across counting benchmarks: +10.8% on BLINK, +11.3% on CVBench, and +8.3% on SEED-Bench, outperforming finetuning approaches in generalization across datasets. It also improves on relative depth: over +6% on BLINK. With perception tokens, AURORA expands the scope of MLMs beyond language-based reasoning, paving the way for more effective visual reasoning capabilities.
arxiv情報
| 著者 | Mahtab Bigverdi,Zelun Luo,Cheng-Yu Hsieh,Ethan Shen,Dongping Chen,Linda G. Shapiro,Ranjay Krishna | 
| 発行日 | 2024-12-04 18:45:35+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
