要約
基礎ビジョン言語モデル(VLM)の最近の進歩により、コンピュータービジョンタスクの評価パラダイムが再構築されました。
これらの基礎モデル、特にCLIPは、オープンボキャブラリーセマンティックセグメンテーション(OVSS)を含む、オープンボキャブラリーコンピュータービジョンタスクの研究を加速しています。
初期の結果は有望ですが、VLMの密な予測能力は依然としてさらなる改善が必要です。
この研究では、新しいモジュールと変更を導入することにより、クリップのセマンティックセグメンテーションパフォーマンスを強化します。1)VITの最後のレイヤーのアーキテクチャの変化と、最終層の中間層からの注意マップの組み込み、2)画像エンジニアリング:入力画像表現を豊かにするためのデータ増強、3)を使用して大規模な言語モデル(LLMS)を使用して、3)
オープンボキャブラリー機能。
当社のトレーニングフリーの方法であるITACLIPは、COCO-STUFF、COCO-Object、Pascal Context、Pascal VOCなどのセグメンテーションベンチマークに関する現在の最先端のアプローチよりも優れています。
私たちのコードは、https://github.com/m-arda-aydn/itaclipで入手できます。
要約(オリジナル)
Recent advances in foundational Vision Language Models (VLMs) have reshaped the evaluation paradigm in computer vision tasks. These foundational models, especially CLIP, have accelerated research in open-vocabulary computer vision tasks, including Open-Vocabulary Semantic Segmentation (OVSS). Although the initial results are promising, the dense prediction capabilities of VLMs still require further improvement. In this study, we enhance the semantic segmentation performance of CLIP by introducing new modules and modifications: 1) architectural changes in the last layer of ViT and the incorporation of attention maps from the middle layers with the last layer, 2) Image Engineering: applying data augmentations to enrich input image representations, and 3) using Large Language Models (LLMs) to generate definitions and synonyms for each class name to leverage CLIP’s open-vocabulary capabilities. Our training-free method, ITACLIP, outperforms current state-of-the-art approaches on segmentation benchmarks such as COCO-Stuff, COCO-Object, Pascal Context, and Pascal VOC. Our code is available at https://github.com/m-arda-aydn/ITACLIP.
arxiv情報
著者 | M. Arda Aydın,Efe Mert Çırpar,Elvin Abdinli,Gozde Unal,Yusuf H. Sahin |
発行日 | 2025-04-14 16:02:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google