Text to Image Generation: Leaving no Language Behind

要約

人工知能 (AI) の最新のアプリケーションの 1 つは、自然言語の記述から画像を生成することです。
これらの発電機は現在利用可能になり、雑誌の表紙などで使用されている印象的な結果を達成しています。
ジェネレーターへの入力は自然言語テキストの形式であるため、入力が異なる言語で記述された場合にこれらのモデルがどのように動作するかという問題がすぐに発生します。
このホワイト ペーパーでは、3 つの一般的なテキストから画像へのジェネレーターのパフォーマンスが言語にどのように依存するかについて、最初の調査を行います。
結果は、英語以外の言語、特に広く使用されていない言語を使用すると、パフォーマンスが大幅に低下することを示しています。
この観察により、さまざまな言語でパフォーマンスが一貫するようにテキストから画像へのジェネレーターを改善する方法について、さまざまな代替案について議論することになります。
これは、この新しいテクノロジーを英語を母国語としない人が使用できるようにし、言語の多様性を維持するために不可欠です。

要約(オリジナル)

One of the latest applications of Artificial Intelligence (AI) is to generate images from natural language descriptions. These generators are now becoming available and achieve impressive results that have been used for example in the front cover of magazines. As the input to the generators is in the form of a natural language text, a question that arises immediately is how these models behave when the input is written in different languages. In this paper we perform an initial exploration of how the performance of three popular text-to-image generators depends on the language. The results show that there is a significant performance degradation when using languages other than English, especially for languages that are not widely used. This observation leads us to discuss different alternatives on how text-to-image generators can be improved so that performance is consistent across different languages. This is fundamental to ensure that this new technology can be used by non-native English speakers and to preserve linguistic diversity.

arxiv情報

著者 Pedro Reviriego,Elena Merino-Gómez
発行日 2022-08-19 13:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク