Towards Addressing the Misalignment of Object Proposal Evaluation for Vision-Language Tasks via Semantic Grounding

要約

オブジェクト提案の生成は、視覚言語(VL)タスク(画像キャプション、視覚的質問応答など)の標準的な前処理ステップとして機能する。VLタスクのために生成されたオブジェクト提案の性能は、現在、利用可能な全ての注釈にわたって評価される。我々の研究はこの現象の研究であり、その影響を緩和するためのセマンティックグラウンディングの有効性を探るものである。この目的のために、我々は、注釈の重要度スコアの閾値によって選択された、利用可能な注釈のサブセットのみに対してオブジェクト提案を評価することを提案する。VLタスクに対するオブジェクト注釈の重要性は、画像を説明するテキストから関連する意味情報を抽出することで定量化される。既存の手法と比較した場合、我々の手法は一貫性があり、画像キャプションメトリクスや人間の注釈によって選択された注釈との整合性が大幅に改善されていることを示す。最後に、シーングラフ生成(SGG)ベンチマークで用いられる現在の検出器をユースケースとして比較する。

要約(オリジナル)

Object proposal generation serves as a standard pre-processing step in Vision-Language (VL) tasks (image captioning, visual question answering, etc.). The performance of object proposals generated for VL tasks is currently evaluated across all available annotations, a protocol that we show is misaligned – higher scores do not necessarily correspond to improved performance on downstream VL tasks. Our work serves as a study of this phenomenon and explores the effectiveness of semantic grounding to mitigate its effects. To this end, we propose evaluating object proposals against only a subset of available annotations, selected by thresholding an annotation importance score. Importance of object annotations to VL tasks is quantified by extracting relevant semantic information from text describing the image. We show that our method is consistent and demonstrates greatly improved alignment with annotations selected by image captioning metrics and human annotation when compared against existing techniques. Lastly, we compare current detectors used in the Scene Graph Generation (SGG) benchmark as a use case, which serves as an example of when traditional object proposal evaluation techniques are misaligned.

arxiv情報

著者 Joshua Feinglass,Yezhou Yang
発行日 2023-09-01 02:19:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク