Generalized People Diversity: Learning a Human Perception-Aligned Diversity Representation for People Images

要約

画像内で人々の多様性を捉えることは困難です。最近の文献では、1 つまたは 2 つの属性の多様化に重点を置く傾向があり、高価な属性ラベルや分類器の構築が必要です。
私たちは、あまり規範的でラベルのない方法で、人々の多様性についての人間の概念により柔軟に適合する、多様な人々のイメージのランキング方法を導入します。
知覚整合テキスト派生人間表現空間 (PATHS) は、人間関連の多様性のすべてまたは多くの関連する特徴を捕捉することを目的としており、標準の最大周辺関連性 (MMR) ランキング アルゴリズムの表現空間として使用すると、より優れた能力が得られます。
人々に関連するさまざまな種類の多様性(障害、文化的服装など)を表面化するため。
PATHS は 2 段階で作成されます。
まず、テキストガイドによるアプローチを使用して、事前トレーニングされた画像テキストモデルから人物の多様性表現を抽出します。
次に、この表現はヒューマン アノテーターの認識判断に基づいて微調整され、人間が最も顕著だと感じる人々関連の類似性の側面が捉えられます。
ヒューマン・アノテーターによる並列評価によると、経験的な結果は、PATHS 手法がベースライン手法よりも優れた多様性を実現していることを示しています。

要約(オリジナル)

Capturing the diversity of people in images is challenging: recent literature tends to focus on diversifying one or two attributes, requiring expensive attribute labels or building classifiers. We introduce a diverse people image ranking method which more flexibly aligns with human notions of people diversity in a less prescriptive, label-free manner. The Perception-Aligned Text-derived Human representation Space (PATHS) aims to capture all or many relevant features of people-related diversity, and, when used as the representation space in the standard Maximal Marginal Relevance (MMR) ranking algorithm, is better able to surface a range of types of people-related diversity (e.g. disability, cultural attire). PATHS is created in two stages. First, a text-guided approach is used to extract a person-diversity representation from a pre-trained image-text model. Then this representation is fine-tuned on perception judgments from human annotators so that it captures the aspects of people-related similarity that humans find most salient. Empirical results show that the PATHS method achieves diversity better than baseline methods, according to side-by-side ratings from human annotators.

arxiv情報

著者 Hansa Srinivasan,Candice Schumann,Aradhana Sinha,David Madras,Gbolahan Oluwafemi Olanubi,Alex Beutel,Susanna Ricco,Jilin Chen
発行日 2024-01-25 17:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.CY パーマリンク