要約
セグメント エニシング モデル (SAM) は、一般的なビジョン シナリオにおいて優れた一般化機能を実証していますが、特殊なデータについては理解が不足しています。
ダウンストリーム タスク向けに SAM を最適化することに焦点を当てた多くの研究が行われてきましたが、これらのタスク固有のアプローチは通常、他のダウンストリーム タスクへの汎用性を制限します。
このペーパーでは、SAM の微調整に対する一般ビジョン モジュールの影響を調査し、それらをすべての下流タスクにわたって一般化できるようにすることを目的としています。
私たちは、パフォーマンスが低いシーンに SAM を適応させるための SimAda と呼ばれるシンプルな統合フレームワークを提案します。
具体的には、私たちのフレームワークはさまざまなメソッドの一般的なモジュールを基本的な設計要素に抽象化し、共有された理論的フレームワークに基づいて 4 つのバリアントを設計します。
SimAda はシンプルでありながら効果的であり、すべてのデータセット固有の設計を削除し、一般的な最適化のみに焦点を当て、SimAda をすべての SAM ベース、さらには Transformer ベースのモデルに適用できるようにします。
私たちは、6 つの下流タスクの 9 つのデータセットに対して広範な実験を実施します。
結果は、SimAda が複数の下流タスクで SAM のパフォーマンスを大幅に向上させ、タスク固有の設計を必要とせずに、ほとんどのタスクで最先端のパフォーマンスを達成することを示しています。
コードはhttps://github.com/zongzi13545329/SimAdaから入手できます。
要約(オリジナル)
Segment anything model (SAM) has demonstrated excellent generalization capabilities in common vision scenarios, yet lacking an understanding of specialized data. Although numerous works have focused on optimizing SAM for downstream tasks, these task-specific approaches usually limit the generalizability to other downstream tasks. In this paper, we aim to investigate the impact of the general vision modules on finetuning SAM and enable them to generalize across all downstream tasks. We propose a simple unified framework called SimAda for adapting SAM in underperformed scenes. Specifically, our framework abstracts the general modules of different methods into basic design elements, and we design four variants based on a shared theoretical framework. SimAda is simple yet effective, which removes all dataset-specific designs and focuses solely on general optimization, ensuring that SimAda can be applied to all SAM-based and even Transformer-based models. We conduct extensive experiments on nine datasets of six downstream tasks. The results demonstrate that SimAda significantly improves the performance of SAM on multiple downstream tasks and achieves state-of-the-art performance on most of them, without requiring task-specific designs. Code is available at: https://github.com/zongzi13545329/SimAda
arxiv情報
著者 | Yiran Song,Qianyu Zhou,Xuequan Lu,Zhiwen Shao,Lizhuang Ma |
発行日 | 2024-01-31 12:53:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google