Detecting Objects with Context-Likelihood Graphs and Graph Refinement

要約

この論文の目標は、オブジェクトの相互関係を利用してオブジェクトを検出することです。
オブジェクトと関係を別々に学習する既存の方法とは対照的に、私たちの重要なアイデアは、オブジェクトと関係の分布を一緒に学習することです。
まず、オブジェクト間の関係事前分布と初期クラス予測から画像のグラフィック表現を作成する新しい方法を提案します。これをコンテキスト尤度グラフと呼びます。
次に、エネルギーベースのモデリング手法を使用して結合分布を学習します。これにより、特定の画像に対してコンテキスト尤度グラフを繰り返しサンプリングして改良することができます。
分布を共同学習する定式化により、画像のより正確なグラフ表現を生成できるようになり、物体検出パフォーマンスの向上につながります。
私たちは、DETR や Faster-RCNN などの物体検出器や代替手法と比較して一貫した改善を達成する Visual Genome および MS-COCO データセットの実験を通じて、コンテキスト尤度グラフ定式化とエネルギーベースのグラフ洗練の利点を実証します。
オブジェクトの相互関係を個別にモデリングします。
私たちの方法は検出器に依存せず、エンドツーエンドでトレーニング可能であり、まれなオブジェクト クラスに対して特に有益です。

要約(オリジナル)

The goal of this paper is to detect objects by exploiting their interrelationships. Contrary to existing methods, which learn objects and relations separately, our key idea is to learn the object-relation distribution jointly. We first propose a novel way of creating a graphical representation of an image from inter-object relation priors and initial class predictions, we call a context-likelihood graph. We then learn the joint distribution with an energy-based modeling technique which allows to sample and refine the context-likelihood graph iteratively for a given image. Our formulation of jointly learning the distribution enables us to generate a more accurate graph representation of an image which leads to a better object detection performance. We demonstrate the benefits of our context-likelihood graph formulation and the energy-based graph refinement via experiments on the Visual Genome and MS-COCO datasets where we achieve a consistent improvement over object detectors like DETR and Faster-RCNN, as well as alternative methods modeling object interrelationships separately. Our method is detector agnostic, end-to-end trainable, and especially beneficial for rare object classes.

arxiv情報

著者 Aritra Bhowmik,Yu Wang,Nora Baka,Martin R. Oswald,Cees G. M. Snoek
発行日 2023-09-27 17:43:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク