要約
最近の研究では、うつ病検出のための多くの機械学習モデルにバイアスがあることが示されていますが、このタスクにおける LLM のバイアスは未調査のままです。
この研究は、定量的アプローチと定性的アプローチの両方を使用して、既存の LLM (ChatGPT、LLaMA 2、および Bard) に存在するジェンダーバイアスの程度を調査する最初の試みを示しています。
定量的な評価から、ChatGPT がさまざまなパフォーマンス メトリクスで最高のパフォーマンスを示し、LLaMA 2 がグループの公平性メトリクスの点で他の LLM よりも優れていることがわかりました。
定性的公平性評価はまだ未解決の研究課題であるため、定性的評価が定量的評価で可能な以上の貴重な洞察をバイアス分析に提供できるかどうか、またその方法を調査するために、いくつかの戦略(文字数、テーマ分析など)を提案します。
私たちは、ChatGPT が LLaMA 2 と比較して、その予測に対してより包括的で合理的な説明を一貫して提供していることを発見しました。また、ジェンダーの公平性を定性的に評価するために LLM が採用するいくつかのテーマも特定しました。
私たちの結果が、特にうつ病の検出などの一か八かのタスクにおいて、LLM の公平性の定性的評価を改善する将来の試みへの足がかりとして使用できることを願っています。
要約(オリジナル)
Recent studies show bias in many machine learning models for depression detection, but bias in LLMs for this task remains unexplored. This work presents the first attempt to investigate the degree of gender bias present in existing LLMs (ChatGPT, LLaMA 2, and Bard) using both quantitative and qualitative approaches. From our quantitative evaluation, we found that ChatGPT performs the best across various performance metrics and LLaMA 2 outperforms other LLMs in terms of group fairness metrics. As qualitative fairness evaluation remains an open research question we propose several strategies (e.g., word count, thematic analysis) to investigate whether and how a qualitative evaluation can provide valuable insights for bias analysis beyond what is possible with quantitative evaluation. We found that ChatGPT consistently provides a more comprehensive, well-reasoned explanation for its prediction compared to LLaMA 2. We have also identified several themes adopted by LLMs to qualitatively evaluate gender fairness. We hope our results can be used as a stepping stone towards future attempts at improving qualitative evaluation of fairness for LLMs especially for high-stakes tasks such as depression detection.
arxiv情報
著者 | Micol Spitale,Jiaee Cheong,Hatice Gunes |
発行日 | 2024-06-12 13:14:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google