要約
大規模言語モデル (LLM) は、採用のような一か八かのアプリケーションに導入されることが増えていますが、不公平な意思決定と結果をもたらす可能性は、特に生成的な設定においてまだ十分に研究されていません。
この研究では、履歴書の要約と検索という 2 つの実際のタスクを通じて、LLM ベースの採用システムの公平性を検証します。
合成履歴書データセットを構築し、求人情報を厳選することで、モデルの動作が人口統計グループ間で異なり、人口統計の摂動に敏感かどうかを調査します。
私たちの調査結果では、人種に基づく違いは生成された概要の約 10% に現れるのに対し、性別に基づく違いはわずか 1% にしか現れないことが明らかになりました。
検索設定では、評価されたすべてのモデルは、人口統計グループ全体で不均一な選択パターンを示し、性別と人種に基づく摂動の両方に対して高い感度を示します。
驚くべきことに、取得モデルは非人口統計的変化に対して同等の感度を示しており、公平性の問題が部分的には一般的な脆弱性の問題に起因している可能性があることを示唆しています。
全体として、私たちの結果は、LLM ベースの採用システムが、特に検索段階で、現実世界の状況において差別的な結果につながる顕著なバイアスを示す可能性があることを示しています。
要約(オリジナル)
Large language models (LLMs) are increasingly being deployed in high-stakes applications like hiring, yet their potential for unfair decision-making and outcomes remains understudied, particularly in generative settings. In this work, we examine the fairness of LLM-based hiring systems through two real-world tasks: resume summarization and retrieval. By constructing a synthetic resume dataset and curating job postings, we investigate whether model behavior differs across demographic groups and is sensitive to demographic perturbations. Our findings reveal that race-based differences appear in approximately 10% of generated summaries, while gender-based differences occur in only 1%. In the retrieval setting, all evaluated models display non-uniform selection patterns across demographic groups and exhibit high sensitivity to both gender and race-based perturbations. Surprisingly, retrieval models demonstrate comparable sensitivity to non-demographic changes, suggesting that fairness issues may stem, in part, from general brittleness issues. Overall, our results indicate that LLM-based hiring systems, especially at the retrieval stage, can exhibit notable biases that lead to discriminatory outcomes in real-world contexts.
arxiv情報
著者 | Preethi Seshadri,Seraphina Goldfarb-Tarrant |
発行日 | 2025-01-08 07:28:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google