要約
潜在的なトークン空間に証明可能なPCA様構造を埋め込む新しい視覚トークン化フレームワークを導入します。
既存の視覚トークンザーは主に再構成の忠実度のために最適化しますが、潜在空間の構造的特性を無視することがよくあります。これは、解釈可能性と下流のタスクの両方の重要な要因です。
私たちの方法は、画像の1D因果トークンシーケンスを生成します。各連続したトークンは、主成分分析に類似した数学的に保証された説明された説明の分散を数学的に保証する非重複情報を生成します。
この構造的制約により、トークン剤が最初に最も顕著な視覚的特徴を抽出し、その後のトークンが減少しているが補完的な情報を追加します。
さらに、拡散デコーダーを活用することにより、トークンの高レベルのセマンティックコンテンツと低レベルのスペクトル詳細の不要なエンタングルメントを引き起こすセマンティックスペクトルカップリング効果を特定して解決しました。
実験は、私たちのアプローチが最先端の再構成パフォーマンスを達成し、より良い解釈性が人間のビジョンシステムと整合することを可能にすることを示しています。
さらに、トークンシーケンスでトレーニングされた自動回帰モデルは、トレーニングと推論にはより少ないトークンを必要とする一方で、現在の最先端の方法に匹敵するパフォーマンスを実現します。
要約(オリジナル)
We introduce a novel visual tokenization framework that embeds a provable PCA-like structure into the latent token space. While existing visual tokenizers primarily optimize for reconstruction fidelity, they often neglect the structural properties of the latent space — a critical factor for both interpretability and downstream tasks. Our method generates a 1D causal token sequence for images, where each successive token contributes non-overlapping information with mathematically guaranteed decreasing explained variance, analogous to principal component analysis. This structural constraint ensures the tokenizer extracts the most salient visual features first, with each subsequent token adding diminishing yet complementary information. Additionally, we identified and resolved a semantic-spectrum coupling effect that causes the unwanted entanglement of high-level semantic content and low-level spectral details in the tokens by leveraging a diffusion decoder. Experiments demonstrate that our approach achieves state-of-the-art reconstruction performance and enables better interpretability to align with the human vision system. Moreover, auto-regressive models trained on our token sequences achieve performance comparable to current state-of-the-art methods while requiring fewer tokens for training and inference.
arxiv情報
著者 | Xin Wen,Bingchen Zhao,Ismail Elezi,Jiankang Deng,Xiaojuan Qi |
発行日 | 2025-03-11 17:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google