Exploring vision transformer layer choosing for semantic segmentation

要約

タイトル:セマンティックセグメンテーションのためのビジョントランスフォーマーレイヤーの選択を探索する
要約:
– ビジョントランスフォーマーは有効性が示されているが、従来は固定された層や最後の層を選択することで多スケールの特徴を獲得してきた。
– しかしこの選択は手動で行われることが多く、異なるサンプルはさまざまな層で異なる特徴を持つため、動的かつ適応的なフュージョン方法が必要とされている。
– 本研究では、従来のエンコーダーとデコーダーとは異なり、ViTControllerと呼ばれる適応的フュージョンと特徴選択のためのネックネットワークを設計した。
– サンプルやモデルによって、従来の最先端技術を上回る効果があることを検証した。
– 最後に、この手法はプラグインモジュールとしても使用でき、異なるネットワークに挿入できることが示された。

要約(オリジナル)

Extensive work has demonstrated the effectiveness of Vision Transformers. The plain Vision Transformer tends to obtain multi-scale features by selecting fixed layers, or the last layer of features aiming to achieve higher performance in dense prediction tasks. However, this selection is often based on manual operation. And different samples often exhibit different features at different layers (e.g., edge, structure, texture, detail, etc.). This requires us to seek a dynamic adaptive fusion method to filter different layer features. In this paper, unlike previous encoder and decoder work, we design a neck network for adaptive fusion and feature selection, called ViTController. We validate the effectiveness of our method on different datasets and models and surpass previous state-of-the-art methods. Finally, our method can also be used as a plug-in module and inserted into different networks.

arxiv情報

著者 Fangjian Lin,Yizhe Ma,Shengwei Tian
発行日 2023-05-02 09:29:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク