Efficient Adaptation For Remote Sensing Visual Grounding

要約

事前に訓練されたモデルの適応は、人工知能における効果的な戦略となっており、ゼロからトレーニングモデルに代わるスケーラブルで効率的な代替品を提供します。
視覚的接地(VG)が露出度の低いままであるリモートセンシング(RS)のコンテキストでは、このアプローチにより、強力な視覚言語モデルの展開が堅牢なクロスモーダル理解を実現しながら、計算オーバーヘッドを大幅に削減できます。
これに対処するために、パラメーター効率的な微調整(PEFT)手法を適用して、これらのモデルをRS固有のVGタスクに適応させました。
具体的には、dinoの接地のさまざまなモジュールにわたってロラ配置を評価し、bitfitとアダプターを使用して、汎用VGデータセットで事前に訓練されたOFAファンデーションモデルを微調整しました。
このアプローチは、計算コストを大幅に削減しながら、現在のART最新モデル(SOTA)モデルに匹敵する、またはそれを超えるパフォーマンスを達成しました。
この研究では、RSの効率的かつ正確なマルチモーダル分析を進めるためのPEFT技術の可能性を強調しており、完全なモデルトレーニングに代わる実用的で費用対効果の高い代替品を提供します。

要約(オリジナル)

Adapting pre-trained models has become an effective strategy in artificial intelligence, offering a scalable and efficient alternative to training models from scratch. In the context of remote sensing (RS), where visual grounding(VG) remains underexplored, this approach enables the deployment of powerful vision-language models to achieve robust cross-modal understanding while significantly reducing computational overhead. To address this, we applied Parameter Efficient Fine Tuning (PEFT) techniques to adapt these models for RS-specific VG tasks. Specifically, we evaluated LoRA placement across different modules in Grounding DINO and used BitFit and adapters to fine-tune the OFA foundation model pre-trained on general-purpose VG datasets. This approach achieved performance comparable to or surpassing current State Of The Art (SOTA) models while significantly reducing computational costs. This study highlights the potential of PEFT techniques to advance efficient and precise multi-modal analysis in RS, offering a practical and cost-effective alternative to full model training.

arxiv情報

著者 Hasan Moughnieh,Mohamad Chalhoub,Hasan Nasrallah,Cristiano Nattero,Paolo Campanella,Giovanni Nico,Ali J. Ghandour
発行日 2025-05-13 17:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク