要約
本研究では、インド全土で広く話されているインド系言語のテキスト画像変換(TTI)モデルの偏りを調査する。これらの言語における主要なTTIモデルの生成性能と文化的妥当性を、英語における性能と比較評価する。提案されたIndicTTIベンチマークを使用して、2つのオープンソース拡散モデルと2つの商用生成APIを使用した30言語のパフォーマンスを包括的に評価します。このベンチマークの主な目的は、これらのモデルにおけるインド系言語のサポートを評価し、改善が必要な領域を特定することです。14億人以上に話されている30言語の言語的多様性を考慮すると、このベンチマークは、Indic言語ランドスケープにおけるTTIモデルの有効性について、詳細かつ洞察に満ちた分析を提供することを目的としています。IndicTTIベンチマークのデータとコードは、https://iab-rubric.org/resources/other-databases/indictti。
要約(オリジナル)
This research investigates biases in text-to-image (TTI) models for the Indic languages widely spoken across India. It evaluates and compares the generative performance and cultural relevance of leading TTI models in these languages against their performance in English. Using the proposed IndicTTI benchmark, we comprehensively assess the performance of 30 Indic languages with two open-source diffusion models and two commercial generation APIs. The primary objective of this benchmark is to evaluate the support for Indic languages in these models and identify areas needing improvement. Given the linguistic diversity of 30 languages spoken by over 1.4 billion people, this benchmark aims to provide a detailed and insightful analysis of TTI models’ effectiveness within the Indic linguistic landscape. The data and code for the IndicTTI benchmark can be accessed at https://iab-rubric.org/resources/other-databases/indictti.
arxiv情報
著者 | Surbhi Mittal,Arnav Sudan,Mayank Vatsa,Richa Singh,Tamar Glaser,Tal Hassner |
発行日 | 2024-08-01 04:56:13+00:00 |
arxivサイト | arxiv_id(pdf) |