要約
大規模言語モデル (LLM) は、インターネットからクロールされた大規模な Web スケールのデータセットでのトレーニングを通じて取得した膨大な量の世界の知識をエンコードします。
ただし、これらのデータセットは通常、英語を話す西側諸国に地理的な偏りを示しています。
その結果、LLM は、他の地理的地域に限定された回答を必要とするクエリに対して、偏ったまたは幻覚的な応答を生成します。
この作業では、LLM のローカライゼーションおよび事実テキスト転送機能を評価するために使用できる LoFTI (Localization and Factuality Transfer to Indian Locales) という新しいベンチマークを導入します。
LoFTI は、ソースおよびターゲットの場所にあるエンティティに関する事実に基づく記述で構成されます。
ソースの場所は世界中に広がり、ターゲットの場所はすべてインド国内にあり、さまざまな程度の超局所性 (国、州、都市) を持ちます。
エンティティはさまざまなカテゴリにまたがります。
私たちは LoFTI を使用して、Mixtral、GPT-4、および局所的な事実伝達のタスクに適した他の 2 つの Mixtral ベースのアプローチを評価します。
私たちは、LoFTI が高品質の評価ベンチマークであり、GPT-4 を含むすべてのモデルがさまざまなレベルの超局所性にわたって歪んだ結果を生成することを実証します。
要約(オリジナル)
Large language models (LLMs) encode vast amounts of world knowledge acquired via training on large web-scale datasets crawled from the internet. However, these datasets typically exhibit a geographical bias towards English-speaking Western countries. This results in LLMs producing biased or hallucinated responses to queries that require answers localized to other geographical regions. In this work, we introduce a new benchmark named LoFTI (Localization and Factuality Transfer to Indian Locales) that can be used to evaluate an LLM’s localization and factual text transfer capabilities. LoFTI consists of factual statements about entities in source and target locations; the source locations are spread across the globe and the target locations are all within India with varying degrees of hyperlocality (country, states, cities). The entities span a wide variety of categories. We use LoFTI to evaluate Mixtral, GPT-4 and two other Mixtral-based approaches well-suited to the task of localized factual transfer. We demonstrate that LoFTI is a high-quality evaluation benchmark and all the models, including GPT-4, produce skewed results across varying levels of hyperlocality.
arxiv情報
著者 | Sona Elza Simon,Soumen Kumar Mondal,Abhishek Singhania,Sayambhu Sen,Preethi Jyothi |
発行日 | 2024-07-16 15:20:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google