Efficient Transformer Encoders for Mask2Former-style models

要約

ビジョン トランスフォーマー ベースのモデルは、画像セグメンテーション タスクに大幅な改善をもたらします。
これらのアーキテクチャは、特定のセグメンテーション タスクに関係なく強力な機能を提供しますが、計算リソースの使用は、展開されたデバイスに負担をかける可能性があります。
この課題を克服する 1 つの方法は、現在の画一的なアプローチではなく、入力画像の特定のニーズに計算レベルを適応させることです。
この目的を達成するために、Mask2Former スタイル モデル用の ECO-M2F または EffiCient TransfOrmer エンコーダを導入します。
M2F スタイル モデルのエンコーダ モジュールではリソースを大量に消費する計算が発生することに留意し、ECO-M2F は入力画像に応じてエンコーダ内の隠れ層の数を自己選択する戦略を提供します。
この自己選択機能を有効にして、パフォーマンスと計算効率のバランスをとるために、3 ステップのレシピを紹介します。
最初のステップは、エンコーダーから早期に終了できるように親アーキテクチャをトレーニングすることです。
2 番目のステップは、各トレーニング サンプルに必要な理想的な数のエンコーダー レイヤーの派生データセットを作成することです。
3 番目のステップは、前述の派生データセットを使用して、入力画像に応じて使用されるエンコーダー層の数を予測するゲーティング ネットワークをトレーニングすることです。
さらに、計算精度のトレードオフを変更するには、ステップ 2 と 3 を繰り返すだけで済み、再トレーニング時間が大幅に短縮されます。
公開データセットでの実験では、提案されたアプローチがパフォーマンスを維持しながらエンコーダーの予想される計算コストを削減し、さまざまなユーザーの計算リソースに適応し、アーキテクチャ構成が柔軟で、セグメンテーション タスクを超えてオブジェクト検出まで拡張できることを示しています。

要約(オリジナル)

Vision transformer based models bring significant improvements for image segmentation tasks. Although these architectures offer powerful capabilities irrespective of specific segmentation tasks, their use of computational resources can be taxing on deployed devices. One way to overcome this challenge is by adapting the computation level to the specific needs of the input image rather than the current one-size-fits-all approach. To this end, we introduce ECO-M2F or EffiCient TransfOrmer Encoders for Mask2Former-style models. Noting that the encoder module of M2F-style models incur high resource-intensive computations, ECO-M2F provides a strategy to self-select the number of hidden layers in the encoder, conditioned on the input image. To enable this self-selection ability for providing a balance between performance and computational efficiency, we present a three step recipe. The first step is to train the parent architecture to enable early exiting from the encoder. The second step is to create an derived dataset of the ideal number of encoder layers required for each training example. The third step is to use the aforementioned derived dataset to train a gating network that predicts the number of encoder layers to be used, conditioned on the input image. Additionally, to change the computational-accuracy tradeoff, only steps two and three need to be repeated which significantly reduces retraining time. Experiments on the public datasets show that the proposed approach reduces expected encoder computational cost while maintaining performance, adapts to various user compute resources, is flexible in architecture configurations, and can be extended beyond the segmentation task to object detection.

arxiv情報

著者 Manyi Yao,Abhishek Aich,Yumin Suh,Amit Roy-Chowdhury,Christian Shelton,Manmohan Chandraker
発行日 2024-04-23 17:26:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク