Adaptive Length Image Tokenization via Recurrent Allocation

要約

現在の視覚システムは通常、情報量に関係なく、画像に固定長の表現を割り当てている。これは、人間の知能や大規模な言語モデルでさえ、エントロピー、文脈、親しみやすさに基づいて様々な表現能力を割り当てるのとは対照的である。このことに着想を得て、我々は2次元画像に対して可変長トークン表現を学習するアプローチを提案する。我々のエンコーダ・デコーダ・アーキテクチャは、2次元画像トークンを再帰的に処理し、リカレント・ロールアウトを複数回繰り返しながら1次元潜在トークンに抽出する。各反復は2Dトークンを洗練し、既存の1D潜在トークンを更新し、新しいトークンを追加することで適応的に表現容量を増加させる。これにより、画像を32から256までの可変数のトークンに圧縮することができる。再構成損失とFIDメトリックスを用いて本トークナイザを検証し、トークン数が画像エントロピー、馴染み度、下流タスク要件に合致することを実証する。各反復において表現能力を増加させる再帰的トークン処理は、トークンの特殊化の兆候を示し、物体/部品発見の可能性を明らかにする。

要約(オリジナル)

Current vision systems typically assign fixed-length representations to images, regardless of the information content. This contrasts with human intelligence – and even large language models – which allocate varying representational capacities based on entropy, context and familiarity. Inspired by this, we propose an approach to learn variable-length token representations for 2D images. Our encoder-decoder architecture recursively processes 2D image tokens, distilling them into 1D latent tokens over multiple iterations of recurrent rollouts. Each iteration refines the 2D tokens, updates the existing 1D latent tokens, and adaptively increases representational capacity by adding new tokens. This enables compression of images into a variable number of tokens, ranging from 32 to 256. We validate our tokenizer using reconstruction loss and FID metrics, demonstrating that token count aligns with image entropy, familiarity and downstream task requirements. Recurrent token processing with increasing representational capacity in each iteration shows signs of token specialization, revealing potential for object / part discovery.

arxiv情報

著者 Shivam Duggal,Phillip Isola,Antonio Torralba,William T. Freeman
発行日 2024-11-04 18:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク