要約
現在の画像のトークン化方法では、画像に含まれる情報を取得するために大量のトークンが必要です。
情報量は画像ごとに異なりますが、ほとんどの画像トークナイザーは固定長のトークン化のみをサポートしているため、トークンの割り当てが非効率になります。
この研究では、品質制御可能なメカニズムを実現し、可変長トークン化用に設計された離散画像トークナイザー One-D-Piece を紹介します。
可変圧縮率を可能にするために、「Tail Token Drop」という名前のシンプルだが効果的な正則化メカニズムを離散 1 次元画像トークナイザーに導入します。
この方法では、重要な情報がトークン シーケンスの先頭に集中するよう促され、最先端の再構成品質を維持しながら、可変長トークン化のサポートが可能になります。
複数の再構成品質メトリクスにわたってトークナイザーを評価したところ、JPEG や WebP などの品質管理可能な既存の圧縮方式よりも小さいバイト サイズで、知覚品質が大幅に向上していることがわかりました。
さらに、画像分類、オブジェクト検出、セマンティック セグメンテーション、深度推定などのさまざまな下流のコンピューター ビジョン タスクでトークナイザーを評価し、他の可変レート手法と比較して多数のアプリケーションへの適応性を確認します。
私たちのアプローチは、可変長の離散画像トークン化の多用途性を実証し、圧縮効率と再構成パフォーマンスの両方において新しいパラダイムを確立します。
最後に、トークナイザーの詳細な分析を通じて、テール トークン ドロップの有効性を検証します。
要約(オリジナル)
Current image tokenization methods require a large number of tokens to capture the information contained within images. Although the amount of information varies across images, most image tokenizers only support fixed-length tokenization, leading to inefficiency in token allocation. In this study, we introduce One-D-Piece, a discrete image tokenizer designed for variable-length tokenization, achieving quality-controllable mechanism. To enable variable compression rate, we introduce a simple but effective regularization mechanism named ‘Tail Token Drop’ into discrete one-dimensional image tokenizers. This method encourages critical information to concentrate at the head of the token sequence, enabling support of variadic tokenization, while preserving state-of-the-art reconstruction quality. We evaluate our tokenizer across multiple reconstruction quality metrics and find that it delivers significantly better perceptual quality than existing quality-controllable compression methods, including JPEG and WebP, at smaller byte sizes. Furthermore, we assess our tokenizer on various downstream computer vision tasks, including image classification, object detection, semantic segmentation, and depth estimation, confirming its adaptability to numerous applications compared to other variable-rate methods. Our approach demonstrates the versatility of variable-length discrete image tokenization, establishing a new paradigm in both compression efficiency and reconstruction performance. Finally, we validate the effectiveness of tail token drop via detailed analysis of tokenizers.
arxiv情報
著者 | Keita Miwa,Kento Sasaki,Hidehisa Arai,Tsubasa Takahashi,Yu Yamaguchi |
発行日 | 2025-01-17 09:29:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google