EGTR: Extracting Graph from Transformer for Scene Graph Generation

要約

シーン グラフ生成 (SGG) は、オブジェクトを検出し、オブジェクト間の関係を予測するという困難なタスクです。
DETR の開発後、1 段階物体検出器に基づく 1 段階 SGG モデルが積極的に研究されてきました。
しかし、オブジェクト間の関係を予測するために複雑なモデリングが使用されており、オブジェクト検出器のマルチヘッドセルフアテンションで学習されたオブジェクトクエリ間の固有の関係は無視されています。
我々は、DETR デコーダのマルチヘッドセルフアテンション層で学習されたさまざまな関係から関係グラフを抽出する軽量の 1 段階 SGG モデルを提案します。
自己注目の副産物を最大限に活用することで、浅い関係抽出ヘッドで効果的に関係グラフを抽出することができます。
関係抽出タスクの物体検出タスクへの依存性を考慮して、検出された物体の品質に応じて関係ラベルを適応的に調整する新しい関係平滑化手法を提案します。
関係平滑化により、モデルはトレーニングの開始時に物体検出タスクに焦点を当て、徐々に物体検出性能が向上するにつれてマルチタスク学習を実行する継続的なカリキュラムに従ってトレーニングされます。
さらに、関係抽出の補助タスクとして、オブジェクトペア間に関係が存在するかどうかを予測する接続性予測タスクを提案します。
Visual Genome および Open Image V6 データセットに対するメソッドの有効性と効率性を実証します。
私たちのコードは https://github.com/naver-ai/egtr で公開されています。

要約(オリジナル)

Scene Graph Generation (SGG) is a challenging task of detecting objects and predicting relationships between objects. After DETR was developed, one-stage SGG models based on a one-stage object detector have been actively studied. However, complex modeling is used to predict the relationship between objects, and the inherent relationship between object queries learned in the multi-head self-attention of the object detector has been neglected. We propose a lightweight one-stage SGG model that extracts the relation graph from the various relationships learned in the multi-head self-attention layers of the DETR decoder. By fully utilizing the self-attention by-products, the relation graph can be extracted effectively with a shallow relation extraction head. Considering the dependency of the relation extraction task on the object detection task, we propose a novel relation smoothing technique that adjusts the relation label adaptively according to the quality of the detected objects. By the relation smoothing, the model is trained according to the continuous curriculum that focuses on object detection task at the beginning of training and performs multi-task learning as the object detection performance gradually improves. Furthermore, we propose a connectivity prediction task that predicts whether a relation exists between object pairs as an auxiliary task of the relation extraction. We demonstrate the effectiveness and efficiency of our method for the Visual Genome and Open Image V6 datasets. Our code is publicly available at https://github.com/naver-ai/egtr.

arxiv情報

著者 Jinbae Im,JeongYeon Nam,Nokyung Park,Hyungmin Lee,Seunghyun Park
発行日 2024-06-24 15:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク