要約
機械学習モデル、特に大規模な言語モデルのバイアスは、これらのシステムが重要な社会的決定を形作るため、重要な問題です。
以前の研究では、個々のLLMのバイアスを調べていましたが、モデル間のバイアスの比較は露出度が低いままです。
このギャップに対処するために、5つのファミリーから13のLLMを分析し、2つのデータセット(4Kおよび1Mの質問)を使用して複数の次元にわたって出力分布を介してバイアスを評価します。
我々の結果は、微調整が出力分布に最小限の影響を与えることを示しており、独自のモデルは、バイアスを最小限に抑え、精度と有用性を損なうために未知のものとして過度に応答する傾向があることを示しています。
さらに、llama3-chatやgemma2-itなどのオープンソースモデルは、GPT-4などの独自モデルに匹敵する公平性を示しており、より大きなクローズドソースモデルが本質的に偏りが少ないという仮定に挑戦しています。
また、曖昧性のある質問のバイアススコアはより極端であり、逆差別に関する懸念を引き起こすことがわかります。
これらの調査結果は、LLMSの公平性のためのより包括的なバイアス緩和戦略とより包括的な評価メトリックの改善の必要性を強調しています。
要約(オリジナル)
Bias in machine learning models, particularly in Large Language Models, is a critical issue as these systems shape important societal decisions. While previous studies have examined bias in individual LLMs, comparisons of bias across models remain underexplored. To address this gap, we analyze 13 LLMs from five families, evaluating bias through output distribution across multiple dimensions using two datasets (4K and 1M questions). Our results show that fine-tuning has minimal impact on output distributions, and proprietary models tend to overly response as unknowns to minimize bias, compromising accuracy and utility. In addition, open-source models like Llama3-Chat and Gemma2-it demonstrate fairness comparable to proprietary models like GPT-4, challenging the assumption that larger, closed-source models are inherently less biased. We also find that bias scores for disambiguated questions are more extreme, raising concerns about reverse discrimination. These findings highlight the need for improved bias mitigation strategies and more comprehensive evaluation metrics for fairness in LLMs.
arxiv情報
著者 | Hyejun Jeong,Shiqing Ma,Amir Houmansadr |
発行日 | 2025-02-19 15:36:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google