Scaling White-Box Transformers for Vision

要約

CRATEは、圧縮された疎な表現を学習するために設計されたホワイトボックス変換器アーキテクチャであり、その固有の数学的解釈可能性により、標準的な視覚変換器(ViT)に代わる興味深い選択肢を提供する。言語変換器や視覚変換器のスケーリング動作に関する広範な調査にもかかわらず、CRATEのスケーラビリティは未解決の問題のままである。具体的には、CRATEアーキテクチャ設計におけるスパースコーディングブロックの戦略的かつ最小限の変更と、CRATEのスケーラビリティを改善するために設計された軽いトレーニングレシピを特徴とするCRATE-$α$を提案する。広範な実験を通じて、CRATE-$α$がより大きなモデルサイズとデータセットに対して効果的にスケールできることを実証する。例えば、我々のCRATE-$alpha$-Bは、ImageNet分類において、先行する最良のCRATE-Bモデルの精度を3.7%大幅に上回り、83.2%の精度を達成した。一方、CRATE-$α$-Lは、さらにスケーリングすることで、85.1%のImageNet分類精度を得る。さらに注目すべきは、学習されたCRATEモデルの解釈可能性を維持し、潜在的に向上させながら、このようなモデル性能の向上が達成されていることである。これは、学習されたトークン表現がますます大きくなるCRATE-$α$モデルの学習されたトークン表現が、ますます高品質な教師なし画像オブジェクトセグメンテーションをもたらすことを示すことで実証される。プロジェクトページはhttps://rayjryang.github.io/CRATE-alpha/。

要約(オリジナル)

CRATE, a white-box transformer architecture designed to learn compressed and sparse representations, offers an intriguing alternative to standard vision transformers (ViTs) due to its inherent mathematical interpretability. Despite extensive investigations into the scaling behaviors of language and vision transformers, the scalability of CRATE remains an open question which this paper aims to address. Specifically, we propose CRATE-$\alpha$, featuring strategic yet minimal modifications to the sparse coding block in the CRATE architecture design, and a light training recipe designed to improve the scalability of CRATE. Through extensive experiments, we demonstrate that CRATE-$\alpha$ can effectively scale with larger model sizes and datasets. For example, our CRATE-$\alpha$-B substantially outperforms the prior best CRATE-B model accuracy on ImageNet classification by 3.7%, achieving an accuracy of 83.2%. Meanwhile, when scaling further, our CRATE-$\alpha$-L obtains an ImageNet classification accuracy of 85.1%. More notably, these model performance improvements are achieved while preserving, and potentially even enhancing the interpretability of learned CRATE models, as we demonstrate through showing that the learned token representations of increasingly larger trained CRATE-$\alpha$ models yield increasingly higher-quality unsupervised object segmentation of images. The project page is https://rayjryang.github.io/CRATE-alpha/.

arxiv情報

著者 Jinrui Yang,Xianhang Li,Druv Pai,Yuyin Zhou,Yi Ma,Yaodong Yu,Cihang Xie
発行日 2024-06-03 06:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク