Grounding Scene Graphs on Natural Images via Visio-Lingual Message Passing

要約

本論文では、シーングラフで与えられるある意味での関係制約に従うオブジェクトを共同で接地するためのフレームワークを提案する。典型的な自然風景には複数のオブジェクトが含まれ、それらの間にはしばしば様々な複雑さの視覚的関係が見られる。これらのオブジェクト間の関係は、従来のオブジェクトクエリーのみに基づく定位タスクと比較して、定位性能を向上させるための強力な文脈上の手がかりとなる。シーングラフは、画像内の全てのオブジェクトとその意味的関係を表現する効率的かつ構造化された方法である。本研究では、シーンを表現する2つの方法と、物体同定を向上させるために文脈情報を利用する方法の橋渡しをするため、自然画像におけるシーングラフの接地問題について厳密に研究する。そのために、Visio-Lingual Message PAssing Graph Neural Network (VL-MPAG Net)と呼ばれるグラフニューラルネットワークに基づく新しいアプローチを提案する。VL-MPAG Netでは、まず、オブジェクト提案をノードとし、一対のノード間のエッジがそれらの間のもっともらしい関係を表す有向グラフを構築する。次に、提案と問い合わせオブジェクトの文脈依存表現を学習するために、3段階のグラフ間およびグラフ内のメッセージパッシングが行われる。これらのオブジェクト表現は、オブジェクトローカライゼーションを生成するためのプロポーザルのスコアリングに利用される。提案手法は4つのパブリックデータセットにおいて、ベースラインを大幅に上回る性能を示した。

要約(オリジナル)

This paper presents a framework for jointly grounding objects that follow certain semantic relationship constraints given in a scene graph. A typical natural scene contains several objects, often exhibiting visual relationships of varied complexities between them. These inter-object relationships provide strong contextual cues toward improving grounding performance compared to a traditional object query-only-based localization task. A scene graph is an efficient and structured way to represent all the objects and their semantic relationships in the image. In an attempt towards bridging these two modalities representing scenes and utilizing contextual information for improving object localization, we rigorously study the problem of grounding scene graphs on natural images. To this end, we propose a novel graph neural network-based approach referred to as Visio-Lingual Message PAssing Graph Neural Network (VL-MPAG Net). In VL-MPAG Net, we first construct a directed graph with object proposals as nodes and an edge between a pair of nodes representing a plausible relation between them. Then a three-step inter-graph and intra-graph message passing is performed to learn the context-dependent representation of the proposals and query objects. These object representations are used to score the proposals to generate object localization. The proposed method significantly outperforms the baselines on four public datasets.

arxiv情報

著者 Aditay Tripathi,Anand Mishra,Anirban Chakraborty
発行日 2022-11-03 16:46:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク