Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model

要約

パラメーター効率の良い微調整 (PEFT) は、トレーニング データが限られた新しいシナリオで大規模な基礎モデルの可能性を引き出す効果的な方法論です。
コンピュータ ビジョン コミュニティでは、PEFT が画像分類において有効であることが示されていますが、画像セグメンテーションにおける PEFT の能力を研究した研究はほとんどありません。
セグメンテーション モデルを微調整するには、通常、新しいシナリオのパラメーター空間で適切な投影方向を揃えるために、パラメーターをさらに大規模に調整する必要があります。
これは、既存の PEFT アルゴリズムに課題をもたらします。各ブロックに注入される個々のパラメータの数が限られていることが多く、ブロックに沿った隠れマルコフ連鎖の制限により、パラメータ空間の投影方向の実質的な調整ができなくなります。
このペーパーでは、PEFT にクロスブロック オーケストレーション メカニズムを装備し、セグメント エニシング モデル (SAM) をさまざまなダウンストリーム シナリオに適応できるようにします。
我々は、学習可能な関係行列を統合して、各PEFTブロックのパラメータ空間の異なる係数セット間の通信を容易にする新しいブロック間通信モジュールを導入します。
さらに、ブロック内強化モジュールを提案します。これは、重みが超複雑層から生成される線形投影ヘッドを導入し、パラメータ空間全体に対する投影方向の調整の影響をさらに強化します。
さまざまなベンチマークに関する広範な実験により、私たちが提案したアプローチは、わずか約 1,000 個の追加パラメーターだけで新しいシナリオでセグメンテーションのパフォーマンスを一貫して大幅に向上させることが実証されました。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) is an effective methodology to unleash the potential of large foundation models in novel scenarios with limited training data. In the computer vision community, PEFT has shown effectiveness in image classification, but little research has studied its ability for image segmentation. Fine-tuning segmentation models usually require a heavier adjustment of parameters to align the proper projection directions in the parameter space for new scenarios. This raises a challenge to existing PEFT algorithms, as they often inject a limited number of individual parameters into each block, which prevents substantial adjustment of the projection direction of the parameter space due to the limitation of Hidden Markov Chain along blocks. In this paper, we equip PEFT with a cross-block orchestration mechanism to enable the adaptation of the Segment Anything Model (SAM) to various downstream scenarios. We introduce a novel inter-block communication module, which integrates a learnable relation matrix to facilitate communication among different coefficient sets of each PEFT block’s parameter space. Moreover, we propose an intra-block enhancement module, which introduces a linear projection head whose weights are generated from a hyper-complex layer, further enhancing the impact of the adjustment of projection directions on the entire parameter space. Extensive experiments on diverse benchmarks demonstrate that our proposed approach consistently improves the segmentation performance significantly on novel scenarios with only around 1K additional parameters.

arxiv情報

著者 Zelin Peng,Zhengqin Xu,Zhilin Zeng,Lingxi Xie,Qi Tian,Wei Shen
発行日 2024-03-28 16:51:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク