Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation


パラメータ効率チューニング (PET) は、パフォーマンスを維持しながらパラメータの数を削減し、ハードウェア リソースの節約を高めることで注目を集めていますが、高密度の予測タスクやモダリティ間の相互作用を調査した研究はほとんどありません。
私たちは、クロスモーダルな情報交換を容易にし、タスク固有の情報を事前トレーニングされたモデルに注入するために、Bridger と呼ばれる新しいアダプターを提案します。
当社のアプローチは、困難なベンチマークで評価した場合、わずか 1.61\% ~ 3.38\% のバックボーン パラメーター更新で同等またはそれ以上のパフォーマンスを達成します。
コードは \url{} で入手できます。


Parameter Efficient Tuning (PET) has gained attention for reducing the number of parameters while maintaining performance and providing better hardware resource savings, but few studies investigate dense prediction tasks and interaction between modalities. In this paper, we do an investigation of efficient tuning problems on referring image segmentation. We propose a novel adapter called Bridger to facilitate cross-modal information exchange and inject task-specific information into the pre-trained model. We also design a lightweight decoder for image segmentation. Our approach achieves comparable or superior performance with only 1.61\% to 3.38\% backbone parameter updates, evaluated on challenging benchmarks. The code is available at \url{}.


著者 Zunnan Xu,Zhihong Chen,Yong Zhang,Yibing Song,Xiang Wan,Guanbin Li
発行日 2023-07-21 12:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.CV パーマリンク