要約
我々は、次のトークン予測としてポーズオブジェクト認識のアプローチを提示する。そのアイデアは、画像埋め込みからラベルを形成するテキストトークンを自動回帰的に予測する言語デコーダを適用することである。この予測プロセスを自動回帰で基礎づけるために、我々はデコーダのための非因果的注意マスクをカスタマイズし、2つの重要な特徴、すなわち、異なるラベルからのトークンを独立にモデル化することと、画像トークンを接頭辞として扱うことを組み込む。このマスキング機構は、複数のラベルのトークンを同時に並列にサンプリングし、推論中に生成されたラベルをその確率でランク付けする効率的な方法、ワンショットサンプリングを鼓舞する。さらに効率を向上させるために、事前に学習した言語モデルの中間ブロックを単純に破棄することで、コンパクトなデコーダを構築する簡単な戦略を提案する。このアプローチにより、フルモデルの性能に匹敵するデコーダが得られると同時に、著しく効率的である。コードはhttps://github.com/kaiyuyue/nxtp。
要約(オリジナル)
We present an approach to pose object recognition as next token prediction. The idea is to apply a language decoder that auto-regressively predicts the text tokens from image embeddings to form labels. To ground this prediction process in auto-regression, we customize a non-causal attention mask for the decoder, incorporating two key features: modeling tokens from different labels to be independent, and treating image tokens as a prefix. This masking mechanism inspires an efficient method – one-shot sampling – to simultaneously sample tokens of multiple labels in parallel and rank generated labels by their probabilities during inference. To further enhance the efficiency, we propose a simple strategy to construct a compact decoder by simply discarding the intermediate blocks of a pretrained language model. This approach yields a decoder that matches the full model’s performance while being notably more efficient. The code is available at https://github.com/kaiyuyue/nxtp
arxiv情報
著者 | Kaiyu Yue,Bor-Chun Chen,Jonas Geiping,Hengduo Li,Tom Goldstein,Ser-Nam Lim |
発行日 | 2023-12-04 18:58:40+00:00 |
arxivサイト | arxiv_id(pdf) |