要約
情報検索における AI 主導のソリューション、特に GPT シリーズのような大規模言語モデル (LLM) への依存度が高まっていることは、特にオンラインでの誤った情報や偽情報の蔓延の中で、その事実性と公平性に対する重要な必要性を浮き彫りにしています。
私たちの研究では、GPT-3.5 や GPT-4 などの広く採用されている GPT モデルにおける事実の精度、安定性、バイアスを評価し、AI を介した情報普及の信頼性と完全性に貢献しています。
「Global-Liar」は、地理的および時間的表現の点で独自にバランスがとれたデータセットであり、LLM バイアスのより微妙な評価を容易にします。
私たちの分析により、GPT モデルの新しい反復が必ずしもパフォーマンスの向上につながるわけではないことが明らかになりました。
特に、3 月の GPT-4 バージョンは、その後の 6 月のリリースよりも事実の正確性が高いことを示しています。
さらに、懸念すべきバイアスが観察され、グローバル・ノースの発言がグローバル・サウスよりも特権的となり、既存の情報格差が悪化する可能性があります。
アフリカや中東などの地域は事実の正確性がはるかに低く、不利な立場にあります。
時間の経過に伴うパフォーマンスの変動は、モデルの更新がすべてのリージョンに均等に利益をもたらすわけではないことを示唆しています。
私たちの調査では、二分決定の強制、モデルの再実行、温度などのさまざまな LLM 構成設定がモデルの事実性に及ぼす影響についての洞察も得られます。
二者択一 (真/偽) の選択肢に制約されたモデルは、「不明確な」選択肢を許容するモデルに比べて事実性が低くなります。
低温設定での単一推論は、さまざまな構成にわたる多数決の信頼性と一致します。
得られた洞察は、文化的に多様で地理的に包括的なモデルのトレーニングと評価の必要性を浮き彫りにしています。
このアプローチは、テクノロジーにおける世界的な公平性を達成し、AI のメリットを世界中に公平に分配するための鍵となります。
要約(オリジナル)
The increasing reliance on AI-driven solutions, particularly Large Language Models (LLMs) like the GPT series, for information retrieval highlights the critical need for their factuality and fairness, especially amidst the rampant spread of misinformation and disinformation online. Our study evaluates the factual accuracy, stability, and biases in widely adopted GPT models, including GPT-3.5 and GPT-4, contributing to reliability and integrity of AI-mediated information dissemination. We introduce ‘Global-Liar,’ a dataset uniquely balanced in terms of geographic and temporal representation, facilitating a more nuanced evaluation of LLM biases. Our analysis reveals that newer iterations of GPT models do not always equate to improved performance. Notably, the GPT-4 version from March demonstrates higher factual accuracy than its subsequent June release. Furthermore, a concerning bias is observed, privileging statements from the Global North over the Global South, thus potentially exacerbating existing informational inequities. Regions such as Africa and the Middle East are at a disadvantage, with much lower factual accuracy. The performance fluctuations over time suggest that model updates may not consistently benefit all regions equally. Our study also offers insights into the impact of various LLM configuration settings, such as binary decision forcing, model re-runs and temperature, on model’s factuality. Models constrained to binary (true/false) choices exhibit reduced factuality compared to those allowing an ‘unclear’ option. Single inference at a low temperature setting matches the reliability of majority voting across various configurations. The insights gained highlight the need for culturally diverse and geographically inclusive model training and evaluation. This approach is key to achieving global equity in technology, distributing AI benefits fairly worldwide.
arxiv情報
著者 | Shujaat Mirza,Bruno Coelho,Yuyuan Cui,Christina Pöpper,Damon McCoy |
発行日 | 2024-01-31 13:57:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google