要約
DALL-EやStableDiffusionに代表されるTTI(Text-to-Image)モデルは、テキストによるプロンプトに誘導されて画像を生成する、その驚くべきゼロショット能力で最近注目を集めている。これらのモデルの多言語能力において、文化の伝導体としての言語は極めて重要な役割を果たしており、それが彼らの文化的主体性を形成している。本研究では、文化的次元、文化的領域、文化的概念という3つの階層にわたって文化を特徴付けることにより、TTIモデルに埋め込まれた文化的知覚を探求する。TTIの文化的知覚を識別するために、CLIP空間を用いた内発的評価、Visual-Question-Answer(VQA)モデルによる外発的評価、および人間による評価を含む、包括的な一連の評価技法を提案する。我々の研究を促進するために、4つの多様なTTIモデルから得られた、10言語にまたがるCulText2Iデータセットを紹介する。我々の実験は、これらのモデルの文化的認識、文化的区別、文化的特徴の解き明かしに関する洞察を明らかにし、異文化間アプリケーションの可能性を解放する。
要約(オリジナル)
Text-To-Image (TTI) models, exemplified by DALL-E and StableDiffusion, have recently gained prominence for their remarkable zero-shot capabilities in generating images guided by textual prompts. Language, as a conduit of culture, plays a pivotal role in these models’ multilingual capabilities, which in turn shape their cultural agency. In this study, we explore the cultural perception embedded in TTI models by characterizing culture across three hierarchical tiers: cultural dimensions, cultural domains, and cultural concepts. We propose a comprehensive suite of evaluation techniques, including intrinsic evaluations using the CLIP space, extrinsic evaluations with a Visual-Question-Answer (VQA) model, and human assessments, to discern TTI cultural perceptions. To facilitate our research, we introduce the CulText2I dataset, derived from four diverse TTI models and spanning ten languages. Our experiments reveal insights into these models’ cultural awareness, cultural distinctions, and the unlocking of cultural features, releasing the potential for cross-cultural applications.
arxiv情報
著者 | Mor Ventura,Eyal Ben-David,Anna Korhonen,Roi Reichart |
発行日 | 2023-10-03 10:13:36+00:00 |
arxivサイト | arxiv_id(pdf) |