Object Recognition as Next Token Prediction

要約

次のトークンの予測としてオブジェクト認識をポーズするアプローチを紹介します。
このアイデアは、画像の埋め込みからテキスト トークンを自動回帰的に予測してラベルを形成する言語デコーダーを適用することです。
この予測プロセスを自動回帰に基づいて行うために、デコーダーの非因果的アテンション マスクをカスタマイズし、2 つの重要な機能を組み込んでいます。それは、異なるラベルからのトークンを独立してモデリングすることと、画像トークンをプレフィックスとして扱うことです。
このマスキング メカニズムは、複数のラベルのトークンを並行して同時にサンプリングし、推論中に生成されたラベルを確率によってランク付けする効率的な方法 (ワンショット サンプリング) を生み出します。
効率をさらに高めるために、事前トレーニングされた言語モデルの中間ブロックを単純に破棄してコンパクトなデコーダを構築する簡単な戦略を提案します。
このアプローチにより、完全なモデルのパフォーマンスに匹敵すると同時に、著しく効率が向上したデコーダが得られます。
コードは https://github.com/kaiyuyue/nxtp で入手できます。

要約(オリジナル)

We present an approach to pose object recognition as next token prediction. The idea is to apply a language decoder that auto-regressively predicts the text tokens from image embeddings to form labels. To ground this prediction process in auto-regression, we customize a non-causal attention mask for the decoder, incorporating two key features: modeling tokens from different labels to be independent, and treating image tokens as a prefix. This masking mechanism inspires an efficient method – one-shot sampling – to simultaneously sample tokens of multiple labels in parallel and rank generated labels by their probabilities during inference. To further enhance the efficiency, we propose a simple strategy to construct a compact decoder by simply discarding the intermediate blocks of a pretrained language model. This approach yields a decoder that matches the full model’s performance while being notably more efficient. The code is available at https://github.com/kaiyuyue/nxtp

arxiv情報

著者 Kaiyu Yue,Bor-Chun Chen,Jonas Geiping,Hengduo Li,Tom Goldstein,Ser-Nam Lim
発行日 2024-03-31 18:11:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク