要約
シーン グラフ生成 (SGG) モデルは、長い尾の述語分布やアノテーションの欠落の問題など、ベンチマーク データセットに関する固有の問題に悩まされてきました。
この研究では、注釈のないトリプレットを利用することで、SGG のロングテール問題を軽減することを目的としています。
この目的を達成するために、SGG モデルのトレーニングに基づいて、注釈のないトリプレットに疑似ラベルを割り当てる SGG 用の自己トレーニング フレームワーク (ST-SGG) を導入します。
画像認識の自己トレーニングは大幅に進歩しましたが、SGG タスクの自己トレーニング フレームワークの設計は、セマンティックな曖昧さや述語クラスのロングテール分布などの固有の性質により、より困難になっています。
そこで、我々は、既存の SGG モデルに適用できるモデルに依存しないフレームワークである、クラス固有のモメンタムによる適応閾値 (CATM) と呼ばれる、SGG 用の新しい擬似ラベル付け手法を提案します。
さらに、提案した自己学習フレームワークを最先端のメッセージ パッシング ニューラル ネットワーク (MPNN) ベースの SGG モデルに採用する際に有益なグラフ構造学習器 (GSL) を考案します。
私たちの広範な実験により、さまざまな SGG モデルにおける ST-SGG の有効性、特にきめの細かい述語クラスでのパフォーマンスの向上が検証されました。
要約(オリジナル)
Scene graph generation (SGG) models have suffered from inherent problems regarding the benchmark datasets such as the long-tailed predicate distribution and missing annotation problems. In this work, we aim to alleviate the long-tailed problem of SGG by utilizing unannotated triplets. To this end, we introduce a Self-Training framework for SGG (ST-SGG) that assigns pseudo-labels for unannotated triplets based on which the SGG models are trained. While there has been significant progress in self-training for image recognition, designing a self-training framework for the SGG task is more challenging due to its inherent nature such as the semantic ambiguity and the long-tailed distribution of predicate classes. Hence, we propose a novel pseudo-labeling technique for SGG, called Class-specific Adaptive Thresholding with Momentum (CATM), which is a model-agnostic framework that can be applied to any existing SGG models. Furthermore, we devise a graph structure learner (GSL) that is beneficial when adopting our proposed self-training framework to the state-of-the-art message-passing neural network (MPNN)-based SGG models. Our extensive experiments verify the effectiveness of ST-SGG on various SGG models, particularly in enhancing the performance on fine-grained predicate classes.
arxiv情報
著者 | Kibum Kim,Kanghoon Yoon,Yeonjun In,Jinyoung Moon,Donghyun Kim,Chanyoung Park |
発行日 | 2024-08-01 03:57:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google