MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing

要約

リモートセンシング(RS)画像のオブジェクト検出(OD)と視覚的接地(VG)を統合する統合フレームワークを提案します。
従来のODをサポートし、VGタスクの直感的な事前の事前を確立するために、参照式データを使用してオープンセットオブジェクト検出器を微調整し、部分的に監視されたODタスクとしてフレーミングします。
最初の段階では、オブジェクトクエリ、クラスの埋め込み、および提案の場所を含む各画像のグラフ表現を作成します。
次に、タスク認識アーキテクチャを処理してVGタスクを実行します。
モデルは、次のもので構成されています。(i)空間、視覚、およびカテゴリの機能を統合してタスク認識提案を生成するマルチブランチネットワーク、および(ii)提案全体で確率を割り当てるオブジェクトの推論ネットワークで、その後に最終的な紹介オブジェクトのローカリゼーションのソフト選択メカニズムが続きます。
私たちのモデルは、Opt-RSVGおよびDior-RSVGデータセットで優れたパフォーマンスを示し、古典的なOD機能を保持しながら、最先端の方法よりも大幅な改善を達成しています。
このコードは、リポジトリで利用できます:\ url {https://github.com/rd20karim/mb-ores}。

要約(オリジナル)

We propose a unified framework that integrates object detection (OD) and visual grounding (VG) for remote sensing (RS) imagery. To support conventional OD and establish an intuitive prior for VG task, we fine-tune an open-set object detector using referring expression data, framing it as a partially supervised OD task. In the first stage, we construct a graph representation of each image, comprising object queries, class embeddings, and proposal locations. Then, our task-aware architecture processes this graph to perform the VG task. The model consists of: (i) a multi-branch network that integrates spatial, visual, and categorical features to generate task-aware proposals, and (ii) an object reasoning network that assigns probabilities across proposals, followed by a soft selection mechanism for final referring object localization. Our model demonstrates superior performance on the OPT-RSVG and DIOR-RSVG datasets, achieving significant improvements over state-of-the-art methods while retaining classical OD capabilities. The code will be available in our repository: \url{https://github.com/rd20karim/MB-ORES}.

arxiv情報

著者 Karim Radouane,Hanane Azzag,Mustapha lebbah
発行日 2025-03-31 15:36:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク