SCoRD: Subject-Conditional Relation Detection with Text-Augmented Data

要約

我々は、被写体と条件の関係検出 SCoRD を提案します。入力された被写体を条件として、その目標は、シーン内の他のオブジェクトとその位置とその被写体とのすべての関係を予測することです。
Open Images データセットに基づいて、$\langle$subject、relation、object$\rangle$ トリプレットの出現統計に関して、トレーニングとテストの分割に分布シフトがあるような、挑戦的な OIv6-SCoRD ベンチマークを提案します。
この問題を解決するために、与えられた対象を、この出力をトークンのシーケンスとしてキャストすることによって、その関係、対象、および対象の位置を予測する自己回帰モデルを提案します。
まず、以前のシーングラフ予測方法では、このベンチマークの主題を条件とした場合、リレーションオブジェクトのペアの網羅的な列挙を生成できないことを示します。
特に、最近のシーン グラフ検出器によって得られた 49.75% と比較して、関係オブジェクトの予測では 83.8% の再現率 @3 が得られました。
次に、テキスト キャプションから自動的に取得され、オブジェクト ボックスの注釈が利用できないリレーション オブジェクトのペアをトレーニング中に活用することで、リレーション オブジェクトとオブジェクト ボックスの両方の予測の一般化が向上することを示します。
特に、トレーニング中にオブジェクトの位置が利用できない $\langle$subject、relation、object$\rangle$ のトリプレットの場合、リレーションとオブジェクトのペアについては 42.59%、そのボックスについては 32.27% の再現率 @3 を得ることができます。
場所。

要約(オリジナル)

We propose Subject-Conditional Relation Detection SCoRD, where conditioned on an input subject, the goal is to predict all its relations to other objects in a scene along with their locations. Based on the Open Images dataset, we propose a challenging OIv6-SCoRD benchmark such that the training and testing splits have a distribution shift in terms of the occurrence statistics of $\langle$subject, relation, object$\rangle$ triplets. To solve this problem, we propose an auto-regressive model that given a subject, it predicts its relations, objects, and object locations by casting this output as a sequence of tokens. First, we show that previous scene-graph prediction methods fail to produce as exhaustive an enumeration of relation-object pairs when conditioned on a subject on this benchmark. Particularly, we obtain a recall@3 of 83.8% for our relation-object predictions compared to the 49.75% obtained by a recent scene graph detector. Then, we show improved generalization on both relation-object and object-box predictions by leveraging during training relation-object pairs obtained automatically from textual captions and for which no object-box annotations are available. Particularly, for $\langle$subject, relation, object$\rangle$ triplets for which no object locations are available during training, we are able to obtain a recall@3 of 42.59% for relation-object pairs and 32.27% for their box locations.

arxiv情報

著者 Ziyan Yang,Kushal Kafle,Zhe Lin,Scott Cohen,Zhihong Ding,Vicente Ordonez
発行日 2023-08-24 16:35:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク