Towards Flexible Visual Relationship Segmentation

要約

視覚的関係の理解は、人間とオブジェクトの相互作用 (HOI) 検出、シーン グラフ生成 (SGG)、および参照関係 (RR) タスクで個別に研究されてきました。
これらのタスクの複雑さと相互関連性を考慮すると、これらのタスクに一貫した方法で効果的に対処できる柔軟なフレームワークを用意することが重要です。
この研究では、標準的かつプロンプト対応の視覚的関係セグメンテーションにおける上記 3 つの側面をシームレスに統合し、さらに新しいシナリオに適応するオープン語彙セグメンテーションの機能を備えた単一モデルである FleVRS を提案します。
FleVRS は、テキストと画像のモダリティ間の相乗効果を活用して、画像からさまざまなタイプの関係を基礎付け、視覚言語モデルから視覚的な概念理解までのテキストの特徴を使用します。
さまざまなデータセットにわたる経験的検証により、私たちのフレームワークは、標準的でプロンプト可能でオープンな語彙タスクにおいて既存のモデルよりも優れていることが実証されています。例: HICO-DET で +1.9 $mAP$、VRD で +11.4 $Acc$、目に見えないタスクで +4.7 $mAP$
ハイコデット
当社の FleVRS は、視覚的な関係をより直感的、包括的、スケーラブルに理解するための重要な一歩を表しています。

要約(オリジナル)

Visual relationship understanding has been studied separately in human-object interaction(HOI) detection, scene graph generation(SGG), and referring relationships(RR) tasks. Given the complexity and interconnectedness of these tasks, it is crucial to have a flexible framework that can effectively address these tasks in a cohesive manner. In this work, we propose FleVRS, a single model that seamlessly integrates the above three aspects in standard and promptable visual relationship segmentation, and further possesses the capability for open-vocabulary segmentation to adapt to novel scenarios. FleVRS leverages the synergy between text and image modalities, to ground various types of relationships from images and use textual features from vision-language models to visual conceptual understanding. Empirical validation across various datasets demonstrates that our framework outperforms existing models in standard, promptable, and open-vocabulary tasks, e.g., +1.9 $mAP$ on HICO-DET, +11.4 $Acc$ on VRD, +4.7 $mAP$ on unseen HICO-DET. Our FleVRS represents a significant step towards a more intuitive, comprehensive, and scalable understanding of visual relationships.

arxiv情報

著者 Fangrui Zhu,Jianwei Yang,Huaizu Jiang
発行日 2024-08-15 17:57:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク