要約
人工知能 (AI)、特に大規模言語モデル (LLM) は、言語と情報のギャップを埋める可能性を秘めており、発展途上国の経済に利益をもたらす可能性があります。
しかし、FLORES-200、FLORES+、Ethnologue、World Development Indicators のデータを分析したところ、これらの利点は主に英語話者に有利であることが明らかになりました。
低所得国および下位中所得国の言語を話す人は、システムが入力を処理する方法 (トークン化) が原因で、API 経由で OpenAI の GPT モデルを使用する場合、コストが高くなります。
主に低中所得国の言語を話す約 15 億人は、英語話者が直面するコストの 4 ~ 6 倍の費用を負担する可能性があります。
LLM のパフォーマンスの格差は大きく、トークンごとに価格が設定されるモデルのトークン化により、アクセス、コスト、ユーティリティの不平等が増幅されます。
さらに、翻訳タスクの品質を代替尺度として使用して、LLM はリソースの少ない言語ではパフォーマンスが低く、これらのユーザーにとってコストの上昇とパフォーマンスの低下という「二重の危険」をもたらすことを示しました。
また、低リソース言語のトークン化における断片化が気候に与える直接的な影響についても説明します。
これは、すべての言語グループに利益をもたらすために、より公平なアルゴリズム開発の必要性を強調しています。
要約(オリジナル)
Artificial Intelligence (AI), particularly large language models (LLMs), holds the potential to bridge language and information gaps, which can benefit the economies of developing nations. However, our analysis of FLORES-200, FLORES+, Ethnologue, and World Development Indicators data reveals that these benefits largely favor English speakers. Speakers of languages in low-income and lower-middle-income countries face higher costs when using OpenAI’s GPT models via APIs because of how the system processes the input — tokenization. Around 1.5 billion people, speaking languages primarily from lower-middle-income countries, could incur costs that are 4 to 6 times higher than those faced by English speakers. Disparities in LLM performance are significant, and tokenization in models priced per token amplifies inequalities in access, cost, and utility. Moreover, using the quality of translation tasks as a proxy measure, we show that LLMs perform poorly in low-resource languages, presenting a “double jeopardy’ of higher costs and poor performance for these users. We also discuss the direct impact of fragmentation in tokenizing low-resource languages on climate. This underscores the need for fairer algorithm development to benefit all linguistic groups.
arxiv情報
著者 | Aivin V. Solatorio,Gabriel Stefanini Vicente,Holly Krambeck,Olivier Dupriez |
発行日 | 2024-10-14 16:11:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google