要約
主観的な人間の判断に依存することなく、大規模な言語モデル(LLM)の社会経済的バイアスを検出および定量化するためのアイテム応答理論(IRT)ベースのフレームワークを導入します。
従来の方法とは異なり、IRTはアイテムの難易度を説明し、イデオロギーバイアスの推定を改善します。
2つのLLMファミリ(メタラマ3.2-1B-InstructおよびChat-GPT 3.5)を微調整して、異なるイデオロギーの位置を表し、2段階のアプローチを導入します。
我々の結果は、既製のLLMが偏見を示すのではなく、イデオロギーの関与を避けることが多く、党派性の事前の主張に挑戦することを示しています。
この経験的に検証されたフレームワークは、AIアライメント研究を強化し、より公正なAIガバナンスを促進します。
要約(オリジナル)
We introduce an Item Response Theory (IRT)-based framework to detect and quantify socioeconomic bias in large language models (LLMs) without relying on subjective human judgments. Unlike traditional methods, IRT accounts for item difficulty, improving ideological bias estimation. We fine-tune two LLM families (Meta-LLaMa 3.2-1B-Instruct and Chat- GPT 3.5) to represent distinct ideological positions and introduce a two-stage approach: (1) modeling response avoidance and (2) estimating perceived bias in answered responses. Our results show that off-the-shelf LLMs often avoid ideological engagement rather than exhibit bias, challenging prior claims of partisanship. This empirically validated framework enhances AI alignment research and promotes fairer AI governance.
arxiv情報
著者 | Jasmin Wachter,Michael Radloff,Maja Smolej,Katharina Kinder-Kurlanda |
発行日 | 2025-03-17 13:20:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google