要約
説明画像は、アクセシブルで読みやすい(E2R)テキストにおいて重要な役割を果たす。しかし、オンラインデータベースで利用可能な画像は、それぞれのテキストに合わせて調整されておらず、カスタマイズされた画像を作成するにはコストがかかる。この大規模な研究では、テキストから画像への生成モデルが、カスタマイズ可能な画像を迅速かつ容易に提供することで、このギャップを埋められるかどうかを調査した。4つのオープンソースと3つのクローズドソースの計7つの画像生成モデルをベンチマークし、得られた画像の広範な評価を行った。さらに、E2Rのターゲット・グループの人々を対象としたユーザー調査を実施し、画像が彼らの要求を満たしているかどうかを検証した。その結果、いくつかのモデルは顕著な性能を示したが、どのモデルも人間の監視なしに大規模に使用できるものではなかった。我々の研究は、E2R作成者のためのアクセシブルな情報作成を促進し、ターゲットグループのニーズに合わせてアクセシブルな画像を調整するための重要な一歩である。
要約(オリジナル)
Explanatory images play a pivotal role in accessible and easy-to-read (E2R) texts. However, the images available in online databases are not tailored toward the respective texts, and the creation of customized images is expensive. In this large-scale study, we investigated whether text-to-image generation models can close this gap by providing customizable images quickly and easily. We benchmarked seven, four open- and three closed-source, image generation models and provide an extensive evaluation of the resulting images. In addition, we performed a user study with people from the E2R target group to examine whether the images met their requirements. We find that some of the models show remarkable performance, but none of the models are ready to be used at a larger scale without human supervision. Our research is an important step toward facilitating the creation of accessible information for E2R creators and tailoring accessible images to the target group’s needs.
arxiv情報
| 著者 | Miriam Anschütz,Tringa Sylaj,Georg Groh | 
| 発行日 | 2024-10-04 13:40:15+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
