Scaling White-Box Transformers for Vision

要約

CRATE は、圧縮表現とスパース表現を学習するために設計されたホワイトボックス トランスフォーマー アーキテクチャであり、その固有の数学的解釈可能性により、標準ビジョン トランスフォーマー (ViT) に代わる興味深い代替手段を提供します。
言語および視覚トランスフォーマーのスケーリング動作については広範な調査が行われてきましたが、CRATE のスケーラビリティは依然として未解決の問題であり、このホワイトペーパーではこれに対処することを目的としています。
具体的には、CRATE アーキテクチャ設計のスパース コーディング ブロックに対する戦略的かつ最小限の変更と、CRATE のスケーラビリティを向上させるために設計された軽量トレーニング レシピを特徴とする CRATE-$\alpha$ を提案します。
広範な実験を通じて、CRATE-$\alpha$ がより大きなモデル サイズとデータセットに合わせて効果的に拡張できることを実証しました。
たとえば、当社の CRATE-$\alpha$-B は、ImageNet 分類において以前の最高の CRATE-B モデルの精度を 3.7% 大幅に上回り、83.2% の精度を達成しました。
一方、さらにスケーリングすると、CRATE-$\alpha$-L は 85.1% の ImageNet 分類精度を獲得します。
さらに注目すべき点は、ますます大規模になり訓練された CRATE-$\alpha$ モデルの学習されたトークン表現がますます高品質な教師なしモデルを生成することを示すことによって実証されているように、これらのモデルのパフォーマンスの向上は、学習された CRATE モデルの解釈可能性を維持しながら達成され、潜在的には強化されることさえあります。
画像のオブジェクトのセグメンテーション。
プロジェクトページは https://rayjryang.github.io/CRATE-alpha/ です。

要約(オリジナル)

CRATE, a white-box transformer architecture designed to learn compressed and sparse representations, offers an intriguing alternative to standard vision transformers (ViTs) due to its inherent mathematical interpretability. Despite extensive investigations into the scaling behaviors of language and vision transformers, the scalability of CRATE remains an open question which this paper aims to address. Specifically, we propose CRATE-$\alpha$, featuring strategic yet minimal modifications to the sparse coding block in the CRATE architecture design, and a light training recipe designed to improve the scalability of CRATE. Through extensive experiments, we demonstrate that CRATE-$\alpha$ can effectively scale with larger model sizes and datasets. For example, our CRATE-$\alpha$-B substantially outperforms the prior best CRATE-B model accuracy on ImageNet classification by 3.7%, achieving an accuracy of 83.2%. Meanwhile, when scaling further, our CRATE-$\alpha$-L obtains an ImageNet classification accuracy of 85.1%. More notably, these model performance improvements are achieved while preserving, and potentially even enhancing the interpretability of learned CRATE models, as we demonstrate through showing that the learned token representations of increasingly larger trained CRATE-$\alpha$ models yield increasingly higher-quality unsupervised object segmentation of images. The project page is https://rayjryang.github.io/CRATE-alpha/.

arxiv情報

著者 Jinrui Yang,Xianhang Li,Druv Pai,Yuyin Zhou,Yi Ma,Yaodong Yu,Cihang Xie
発行日 2024-05-30 17:46:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク