Change3D: Revisiting Change Detection and Captioning from A Video Modeling Perspective

要約

このホワイトペーパーでは、ビデオモデリングを通じて変化の検出とキャプションタスクを再概念化するフレームワークであるChange3Dを紹介します。
最近の方法では、各ペアの双方対の画像を個別のフレームと見なすことにより、顕著な成功を収めています。
共有重量の画像エンコーダーを使用して空間機能を抽出し、変更抽出器を使用して2つの画像間の違いをキャプチャします。
ただし、タスクに依存しないプロセスである画像機能エンコードは、変化した領域に効果的に出席することはできません。
さらに、さまざまな変更検出およびキャプションタスク用に設計されたさまざまな変更抽出器により、統一されたフレームワークを持つことが困難になります。
これらの課題に取り組むために、Change3dは、小さなビデオに似た2つのフレームで構成されるバイテンポラル画像を小さなビデオと見なしています。
学習可能な知覚フレームを二時型画像間で統合することにより、ビデオエンコーダーを使用すると、知覚フレームが画像と直接対話し、違いを認識できます。
したがって、複雑な変化抽出器を取り除くことができ、さまざまな変化検出およびキャプションタスクの統一されたフレームワークを提供します。
複数のタスクでChange3Dを検証し、8つの標準ベンチマークにわたって、変更検出(バイナリ変更検出、セマンティック変更検出、および構築ダメージ評価を含む)を含み、キャプションを変更します。
ベルとホイッスルがなければ、このシンプルでありながら効果的なフレームワークは、最先端の方法と比較して、パラメーターの〜6%〜13%とフロップの〜8%〜34%で構成される超軽量ビデオモデルで優れたパフォーマンスを実現できます。
Change3Dが2Dベースのモデルに代わるものであり、将来の研究を促進できることを願っています。

要約(オリジナル)

In this paper, we present Change3D, a framework that reconceptualizes the change detection and captioning tasks through video modeling. Recent methods have achieved remarkable success by regarding each pair of bi-temporal images as separate frames. They employ a shared-weight image encoder to extract spatial features and then use a change extractor to capture differences between the two images. However, image feature encoding, being a task-agnostic process, cannot attend to changed regions effectively. Furthermore, different change extractors designed for various change detection and captioning tasks make it difficult to have a unified framework. To tackle these challenges, Change3D regards the bi-temporal images as comprising two frames akin to a tiny video. By integrating learnable perception frames between the bi-temporal images, a video encoder enables the perception frames to interact with the images directly and perceive their differences. Therefore, we can get rid of the intricate change extractors, providing a unified framework for different change detection and captioning tasks. We verify Change3D on multiple tasks, encompassing change detection (including binary change detection, semantic change detection, and building damage assessment) and change captioning, across eight standard benchmarks. Without bells and whistles, this simple yet effective framework can achieve superior performance with an ultra-light video model comprising only ~6%-13% of the parameters and ~8%-34% of the FLOPs compared to state-of-the-art methods. We hope that Change3D could be an alternative to 2D-based models and facilitate future research.

arxiv情報

著者 Duowang Zhu,Xiaohu Huang,Haiyan Huang,Hao Zhou,Zhenfeng Shao
発行日 2025-03-24 15:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク