HiLo: Exploiting High Low Frequency Relations for Unbiased Panoptic Scene Graph Generation

要約

パノプティック シーン グラフ生成 (PSG) は、画像シーンの理解において最近提案されたタスクであり、画像をセグメント化し、被写体、オブジェクト、およびそれらの関係のトリプレットを抽出してシーン グラフを構築することを目的としています。
この作業は、2 つの理由から特に困難です。
第 1 に、関係カテゴリのロングテール問題に悩まされており、ナイーブで偏った方法が高頻度の関係に傾いています。
既存の偏りのない方法は、データ/損失のリバランスによってロングテールの問題に取り組み、低頻度の関係を優先します。
第 2 に、主語と目的語のペアは、2 つ以上の意味的に重複する関係を持つことができます。
既存の方法ではどちらか一方が優先されますが、私たちが提案する HiLo フレームワークでは、さまざまなネットワーク ブランチが低頻度と高頻度の関係に特化し、それらの一貫性を強化し、結果を融合させることができます。
私たちの知る限りでは、明示的に偏りのない PSG 法を提案したのは私たちが初めてです。
大規模な実験で、HiLo フレームワークが PSG タスクで最先端の結果を達成することを示しています。
また、マスクの代わりにボックスを予測するシーン グラフ生成タスクにもこの方法を適用し、すべてのベースライン方法の改善を確認します。

要約(オリジナル)

Panoptic Scene Graph generation (PSG) is a recently proposed task in image scene understanding that aims to segment the image and extract triplets of subjects, objects and their relations to build a scene graph. This task is particularly challenging for two reasons. First, it suffers from a long-tail problem in its relation categories, making naive biased methods more inclined to high-frequency relations. Existing unbiased methods tackle the long-tail problem by data/loss rebalancing to favor low-frequency relations. Second, a subject-object pair can have two or more semantically overlapping relations. While existing methods favor one over the other, our proposed HiLo framework lets different network branches specialize on low and high frequency relations, enforce their consistency and fuse the results. To the best of our knowledge we are the first to propose an explicitly unbiased PSG method. In extensive experiments we show that our HiLo framework achieves state-of-the-art results on the PSG task. We also apply our method to the Scene Graph Generation task that predicts boxes instead of masks and see improvements over all baseline methods.

arxiv情報

著者 Zijian Zhou,Miaojing Shi,Holger Caesar
発行日 2023-03-28 14:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク