要約
シーン グラフ生成 (SGG) は、ビジュアル シーンの基本的な言語表現を提供します。これには、モデルがオブジェクト間の複雑で多様なセマンティクスを把握する必要があります。
SGG のこの複雑さと多様性は過小表現につながり、トリプレット ラベルの一部がまれであるか、トレーニング中に表示されないため、予測が不正確になります。
これに取り組むために、事前トレーニングされたビジョン言語モデルを統合して表現を強化することを提案します。
ただし、事前トレーニングと SGG の間にギャップがあるため、SGG で事前トレーニングされた VLM を直接推論すると、事前トレーニング言語セットの不均衡な述語分布に起因する深刻なバイアスが生じます。
バイアスを軽減するために、達成不可能な述語分布を近似する新しい LM 推定を導入します。
最後に、偏りを解消した VLM を SGG モデルでアンサンブルして表現を強化します。ここで、各サンプルをスコアリングし、アンサンブルの重みを動的に調整するための確実性を意識した指標を設計します。
私たちのトレーニング不要の手法は、事前トレーニングされた VLM の述語バイアスに効果的に対処し、SGG の表現を強化し、パフォーマンスを大幅に向上させます。
要約(オリジナル)
Scene Graph Generation (SGG) provides basic language representation of visual scenes, requiring models to grasp complex and diverse semantics between objects. This complexity and diversity in SGG leads to underrepresentation, where parts of triplet labels are rare or even unseen during training, resulting in imprecise predictions. To tackle this, we propose integrating the pretrained Vision-language Models to enhance representation. However, due to the gap between pretraining and SGG, direct inference of pretrained VLMs on SGG leads to severe bias, which stems from the imbalanced predicates distribution in the pretraining language set. To alleviate the bias, we introduce a novel LM Estimation to approximate the unattainable predicates distribution. Finally, we ensemble the debiased VLMs with SGG models to enhance the representation, where we design a certainty-aware indicator to score each sample and dynamically adjust the ensemble weights. Our training-free method effectively addresses the predicates bias in pretrained VLMs, enhances SGG’s representation, and significantly improve the performance.
arxiv情報
著者 | Yuxuan Wang,Xiaoyuan Liu |
発行日 | 2025-01-22 10:30:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google