要約
シーングラフ生成(SGG)は、視覚的なシーンの基本的な言語表現を提供し、モデルがオブジェクト間で複雑で多様なセマンティクスを把握する必要があります。
SGGのこの複雑さと多様性は、トリプレットラベルの一部がトレーニング中にまれであるか目に見えない過小評価につながり、不正確な予測をもたらします。
これに取り組むために、表現を強化するために、優先されたビジョン言語モデルを統合することを提案します。
ただし、事前トレーニングとSGGの間のギャップにより、SGGに対する前処理されたVLMの直接推論は、重度のバイアスにつながります。これは、前脱型言語セットの不均衡な述語分布に起因します。
バイアスを緩和するために、達成不可能な述語分布を近似するための新しいLM推定を導入します。
最後に、SGGモデルを備えたDebiased VLMSをアンサンブルして表現を強化し、各サンプルをスコアリングし、アンサンブルウェイトを動的に調整するために確実に認識されるインジケーターを設計します。
当社のトレーニングフリーの方法は、前処理されたVLMの述語バイアスに効果的に対処し、SGGの表現を強化し、パフォーマンスを大幅に改善します。
要約(オリジナル)
Scene Graph Generation (SGG) provides basic language representation of visual scenes, requiring models to grasp complex and diverse semantics between objects. This complexity and diversity in SGG leads to underrepresentation, where parts of triplet labels are rare or even unseen during training, resulting in imprecise predictions. To tackle this, we propose integrating the pretrained Vision-language Models to enhance representation. However, due to the gap between pretraining and SGG, direct inference of pretrained VLMs on SGG leads to severe bias, which stems from the imbalanced predicates distribution in the pretraining language set. To alleviate the bias, we introduce a novel LM Estimation to approximate the unattainable predicates distribution. Finally, we ensemble the debiased VLMs with SGG models to enhance the representation, where we design a certainty-aware indicator to score each sample and dynamically adjust the ensemble weights. Our training-free method effectively addresses the predicates bias in pretrained VLMs, enhances SGG’s representation, and significantly improve the performance.
arxiv情報
著者 | Yuxuan Wang,Xiaoyuan Liu |
発行日 | 2025-04-29 10:39:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google