ViewDelta: Text-Prompted Change Detection in Unaligned Images


画像間の変化の検出は、状況認識、インフラストラクチャ評価、環境監視、産業オートメーションなどの幅広い用途に関わるコンピューター ビジョンの基本的な問題です。
これらの制限に単一のアプローチで対処するために、位置合わせされていない画像とテキスト プロンプトを初めて利用して、ユーザーが指定したテキストに関連する変更のバイナリ セグメンテーションを出力する、新しい変更検出方法を提案します。
さらに、テキスト プロンプトと対応する変更検出ラベルを含む 100,311 組の画像で構成される付随データセットをリリースします。


Detecting changes between images is a fundamental problem in computer vision with broad applications in situational awareness, infrastructure assessment, environment monitoring, and industrial automation. Existing supervised models are typically limited to detecting specific types of changes, necessitating retraining for new tasks. To address these limitations with a single approach, we propose a novel change detection method that is the first to utilize unaligned images and textual prompts to output a binary segmentation of changes relevant to user-provided text. Our architecture not only enables flexible detection across diverse change detection use cases, but also yields state-of-the art performance on established benchmarks. Additionally, we release an accompanying dataset comprising of 100,311 pairs of images with text prompts and the corresponding change detection labels. We demonstrate the effectiveness of our method both quantitatively and qualitatively on datasets with a wide variety of viewpoints in indoor, outdoor, street level, synthetic, and satellite images.


著者 Subin Varghese,Joshua Gao,Vedhus Hoskere
発行日 2024-12-10 15:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク