要約
ディープ ニューラル ネットワーク (DNN) モデルの最近の進歩により、コンピューター ビジョン タスク全体のパフォーマンスが大幅に向上しました。
ただし、高度に一般化可能でパフォーマンスの高いビジョン モデルを実現するには、大規模なデータセットが必要となり、大規模なストレージ要件が必要になります。
このストレージの課題は、ビジョン モデルをスケールアップする際の重大なボトルネックとなっています。
SeiT は、離散表現の成功に動機付けられ、ベクトル量子化 (VQ) 特徴ベクトル (つまり、トークン) を視覚分類のネットワーク入力として使用することを提案しています。
ただし、従来のデータ拡張をトークンに適用すると、入力ドメインのシフトによる課題に直面します。
この問題に対処するために、シンプルかつ効果的なトークンベースの拡張戦略である TokenAdapt と ColorAdapt を導入します。
TokenAdapt は、空間拡張との互換性を保つためにトークン埋め込み空間を再調整し、微調整を必要とせずにモデルの効率を維持します。
さらに、ColorAdapt は、Adaptive Instance Normalization (AdaIN) からインスピレーションを得た、トークンの色ベースの拡張に対応します。
ストレージ効率の高い ImageNet-1k 分類、きめ細かい分類、堅牢性ベンチマーク、ADE-20k セマンティック セグメンテーションなど、さまざまなシナリオにわたってアプローチを評価します。
実験結果は、さまざまな実験において一貫したパフォーマンスの向上を示しています。
コードは https://github.com/naver-ai/tokenadapt で入手できます。
要約(オリジナル)
Recent advancements in Deep Neural Network (DNN) models have significantly improved performance across computer vision tasks. However, achieving highly generalizable and high-performing vision models requires extensive datasets, leading to large storage requirements. This storage challenge poses a critical bottleneck for scaling up vision models. Motivated by the success of discrete representations, SeiT proposes to use Vector-Quantized (VQ) feature vectors (i.e., tokens) as network inputs for vision classification. However, applying traditional data augmentations to tokens faces challenges due to input domain shift. To address this issue, we introduce TokenAdapt and ColorAdapt, simple yet effective token-based augmentation strategies. TokenAdapt realigns token embedding space for compatibility with spatial augmentations, preserving the model’s efficiency without requiring fine-tuning. Additionally, ColorAdapt addresses color-based augmentations for tokens inspired by Adaptive Instance Normalization (AdaIN). We evaluate our approach across various scenarios, including storage-efficient ImageNet-1k classification, fine-grained classification, robustness benchmarks, and ADE-20k semantic segmentation. Experimental results demonstrate consistent performance improvement in diverse experiments. Code is available at https://github.com/naver-ai/tokenadapt.
arxiv情報
著者 | Minhyun Lee,Song Park,Byeongho Heo,Dongyoon Han,Hyunjung Shim |
発行日 | 2024-01-22 14:56:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google