要約
画像間の変化の検出は、状況認識、インフラストラクチャ評価、環境監視、産業オートメーションなどの幅広い用途に関わるコンピューター ビジョンの基本的な問題です。
既存の教師ありモデルは通常、特定の種類の変更の検出に限定されており、新しいタスクの再トレーニングが必要になります。
これらの制限に単一のアプローチで対処するために、位置合わせされていない画像とテキスト プロンプトを初めて利用して、ユーザーが指定したテキストに関連する変更のバイナリ セグメンテーションを出力する、新しい変更検出方法を提案します。
当社のアーキテクチャは、さまざまな変更検出のユースケースにわたって柔軟な検出を可能にするだけでなく、確立されたベンチマークで最先端のパフォーマンスももたらします。
さらに、テキスト プロンプトと対応する変更検出ラベルを含む 100,311 組の画像で構成される付随データセットをリリースします。
私たちは、屋内、屋外、街頭レベル、合成画像、衛星画像などのさまざまな視点のデータセットに対して、定量的および定性的な両面でこの手法の有効性を実証します。
要約(オリジナル)
Detecting changes between images is a fundamental problem in computer vision with broad applications in situational awareness, infrastructure assessment, environment monitoring, and industrial automation. Existing supervised models are typically limited to detecting specific types of changes, necessitating retraining for new tasks. To address these limitations with a single approach, we propose a novel change detection method that is the first to utilize unaligned images and textual prompts to output a binary segmentation of changes relevant to user-provided text. Our architecture not only enables flexible detection across diverse change detection use cases, but also yields state-of-the art performance on established benchmarks. Additionally, we release an accompanying dataset comprising of 100,311 pairs of images with text prompts and the corresponding change detection labels. We demonstrate the effectiveness of our method both quantitatively and qualitatively on datasets with a wide variety of viewpoints in indoor, outdoor, street level, synthetic, and satellite images.
arxiv情報
著者 | Subin Varghese,Joshua Gao,Vedhus Hoskere |
発行日 | 2024-12-10 15:51:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google