要約
Text-to-Image (T2I) モデルは、独自の文化を視覚的に表現する多様なグローバル コミュニティでますます採用されています。
現在の T2I ベンチマークは主に、生成された画像の忠実さ、美しさ、リアリズムに焦点を当てており、文化的能力の重要な側面を見落としています。
この研究では、文化的意識と文化的多様性という 2 つの重要な側面に沿って T2I モデルの文化的能力を評価するフレームワークを導入し、構造化された知識ベースと大規模な言語モデルを組み合わせて文化的成果物の大規模なデータセットを構築するスケーラブルなアプローチを提示します。
この評価を有効にするには、
特に、このアプローチを適用して、T2I モデルの文化的能力を評価するためのこの種初のベンチマークである CUBE (Text-to-Image モデルのための CUultural BEnchmark) を構築します。
CUBE は、料理、ランドマーク、アートの 3 つのコンセプトに沿って、地理文化的地域の異なる 8 か国に関連する文化的工芸品をカバーしています。
CUBE は、1) 文化的意識の評価を可能にする高品質のプロンプトのセットである CUBE-1K、および 2) 文化的多様性を評価する基礎として機能する文化的成果物のより大規模なデータセットである CUBE-CSpace で構成されます。
また、品質を重視した Vendi スコアを活用して、新しい T2I 評価要素として文化的多様性を導入します。
私たちの評価は、各国の既存モデルの文化的認識に大きなギャップがあることを明らかにし、過少指定されたプロンプトに対する T2I 出力の文化的多様性についての貴重な洞察を提供します。
私たちの方法論は他の文化地域や概念にも拡張可能であり、世界人口により適切に対応する T2I モデルの開発を促進できます。
要約(オリジナル)
Text-to-Image (T2I) models are being increasingly adopted in diverse global communities where they create visual representations of their unique cultures. Current T2I benchmarks primarily focus on faithfulness, aesthetics, and realism of generated images, overlooking the critical dimension of cultural competence. In this work, we introduce a framework to evaluate cultural competence of T2I models along two crucial dimensions: cultural awareness and cultural diversity, and present a scalable approach using a combination of structured knowledge bases and large language models to build a large dataset of cultural artifacts to enable this evaluation. In particular, we apply this approach to build CUBE (CUltural BEnchmark for Text-to-Image models), a first-of-its-kind benchmark to evaluate cultural competence of T2I models. CUBE covers cultural artifacts associated with 8 countries across different geo-cultural regions and along 3 concepts: cuisine, landmarks, and art. CUBE consists of 1) CUBE-1K, a set of high-quality prompts that enable the evaluation of cultural awareness, and 2) CUBE-CSpace, a larger dataset of cultural artifacts that serves as grounding to evaluate cultural diversity. We also introduce cultural diversity as a novel T2I evaluation component, leveraging quality-weighted Vendi score. Our evaluations reveal significant gaps in the cultural awareness of existing models across countries and provide valuable insights into the cultural diversity of T2I outputs for under-specified prompts. Our methodology is extendable to other cultural regions and concepts, and can facilitate the development of T2I models that better cater to the global population.
arxiv情報
著者 | Nithish Kannen,Arif Ahmad,Marco Andreetto,Vinodkumar Prabhakaran,Utsav Prabhu,Adji Bousso Dieng,Pushpak Bhattacharyya,Shachi Dave |
発行日 | 2024-07-11 17:57:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google