From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition

要約

人々の社会的関係は、結婚指輪、バラ、ハグ、手をつなぐなど、特定の物体や相互作用が特定の関係の象徴として機能するなど、周囲の環境を通じて明らかにされることがよくあります。
これは、社会的関係を認識する際に独特の課題をもたらし、視覚的な外観からこれらのコンテキストの本質を理解して捉えることが必要になります。
しかし、社会関係を理解する現在の方法は、検出された人物や物体の基本的な分類パラダイムに依存しているため、包括的なコンテキストを理解できず、決定的な社会的要因、特に微妙な視覚的手がかりを見落とすことがよくあります。
社会認識のコンテキストと複雑な詳細を強調するために、社会認知の観点から \textbf{Con}textual \textbf{So}cial \textbf{R} 関係 (\textbf{ConSoR}) を認識する新しいアプローチを提案します。
具体的には、ソーシャルを意識したセマンティクスを組み込むために、凍結された CLIP 上に軽量のアダプターを構築し、新しいマルチモーダル サイド アダプター調整メカニズムを介してソーシャル概念を学習します。
さらに、各画像の社会的関係を伴う社会を意識した記述言語プロンプト(例:シーン、活動、物体、感情)を構築し、視覚と言語の対比を通じて決定的な視覚的社会的要素により集中するようConSoRに強制します。
印象的なことに、ConSoR は以前の手法を上回り、People-in-Social-Context (PISC) データセットで 12.2\% の向上、People-in-Photo-Album (PIPA) ベンチマークで 9.8\% の向上を実現しました。
さらに、ConSoR は社会的関係を明らかにするための重要な視覚的証拠を見つけることに優れていることがわかります。

要約(オリジナル)

People’s social relationships are often manifested through their surroundings, with certain objects or interactions acting as symbols for specific relationships, e.g., wedding rings, roses, hugs, or holding hands. This brings unique challenges to recognizing social relationships, requiring understanding and capturing the essence of these contexts from visual appearances. However, current methods of social relationship understanding rely on the basic classification paradigm of detected persons and objects, which fails to understand the comprehensive context and often overlooks decisive social factors, especially subtle visual cues. To highlight the social-aware context and intricate details, we propose a novel approach that recognizes \textbf{Con}textual \textbf{So}cial \textbf{R}elationships (\textbf{ConSoR}) from a social cognitive perspective. Specifically, to incorporate social-aware semantics, we build a lightweight adapter upon the frozen CLIP to learn social concepts via our novel multi-modal side adapter tuning mechanism. Further, we construct social-aware descriptive language prompts (e.g., scene, activity, objects, emotions) with social relationships for each image, and then compel ConSoR to concentrate more intensively on the decisive visual social factors via visual-linguistic contrasting. Impressively, ConSoR outperforms previous methods with a 12.2\% gain on the People-in-Social-Context (PISC) dataset and a 9.8\% increase on the People-in-Photo-Album (PIPA) benchmark. Furthermore, we observe that ConSoR excels at finding critical visual evidence to reveal social relationships.

arxiv情報

著者 Shiwei Wu,Chao Zhang,Joya Chen,Tong Xu,Likang Wu,Yao Hu,Enhong Chen
発行日 2024-06-12 16:02:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク