要約
この研究では、マルチモーダル データセットの微調整を必要とせずに視覚信号を直接理解できる大規模言語モデル (LLM) の可能性を調査します。
私たちの方法の基本的な概念は、画像を言語的実体として捉え、それを LLM の語彙から派生した一連の個別の単語に翻訳します。
これを実現するために、V2T トークナイザーと略称される Vision-to-Language Tokenizer を紹介します。これは、エンコーダー/デコーダー、LLM ボキャブラリー、および CLIP モデルを組み合わせて画像を「外国語」に変換します。
この革新的な画像エンコーディングにより、LLM は、視覚的な理解だけでなく、微調整を必要とせずに、自己回帰的な方法で画像のノイズ除去と復元を行う能力も獲得します。
私たちは、画像認識、画像キャプション、視覚的な質問応答などの理解タスクと、インペイント、アウトペイント、ブラー除去、シフト復元などの画像ノイズ除去タスクを含む、手法を検証するための厳密な実験を行っています。
コードとモデルは https://github.com/zh460045050/V2L-Tokenizer で入手できます。
要約(オリジナル)
In this work, we investigate the potential of a large language model (LLM) to directly comprehend visual signals without the necessity of fine-tuning on multi-modal datasets. The foundational concept of our method views an image as a linguistic entity, and translates it to a set of discrete words derived from the LLM’s vocabulary. To achieve this, we present the Vision-to-Language Tokenizer, abbreviated as V2T Tokenizer, which transforms an image into a “foreign language” with the combined aid of an encoder-decoder, the LLM vocabulary, and a CLIP model. With this innovative image encoding, the LLM gains the ability not only for visual comprehension but also for image denoising and restoration in an auto-regressive fashion-crucially, without any fine-tuning. We undertake rigorous experiments to validate our method, encompassing understanding tasks like image recognition, image captioning, and visual question answering, as well as image denoising tasks like inpainting, outpainting, deblurring, and shift restoration. Code and models are available at https://github.com/zh460045050/V2L-Tokenizer.
arxiv情報
著者 | Lei Zhu,Fangyun Wei,Yanye Lu |
発行日 | 2024-03-12 17:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google