An Actionable Framework for Assessing Bias and Fairness in Large Language Model Use Cases

要約

大規模言語モデル (LLM) は、さまざまな方法でバイアスを示す可能性があります。
このような偏見は、性別、人種、性的指向、年齢などを含むがこれらに限定されない、保護された属性内の特定のグループにとって不公平な結果を生み出したり、悪化させたりする可能性があります。
このペーパーは、実務者が LLM ユースケースにおけるバイアスと公平性のリスクを評価するための技術ガイドを提供することを目的としています。
この研究の主な貢献は、実務者が特定の LLM ユースケースにどのメトリクスを使用するかを決定できるようにする意思決定フレームワークです。
これを達成するために、この研究では LLM のバイアスと公平性のリスクを分類し、それらのリスクを LLM ユースケースの分類にマッピングし、各種類のリスクを評価するためのさまざまな指標を正式に定義します。
この作業の一環として、革新的な反事実指標やステレオタイプ分類子に基づく指標など、いくつかの新しいバイアスと公平性の指標が導入されています。
モデル自体だけに焦点を当てるのではなく、モデルとプロンプトの母集団によって特徴付けられる LLM ユースケースのレベルで評価を定義することにより、プロンプト リスクとモデル リスクの両方の感度が考慮されます。
さらに、すべての評価指標は LLM 出力のみを使用して計算されるため、提案されたフレームワークは非常に実用的であり、実践者にとって簡単に実行可能です。

要約(オリジナル)

Large language models (LLMs) can exhibit bias in a variety of ways. Such biases can create or exacerbate unfair outcomes for certain groups within a protected attribute, including, but not limited to sex, race, sexual orientation, or age. This paper aims to provide a technical guide for practitioners to assess bias and fairness risks in LLM use cases. The main contribution of this work is a decision framework that allows practitioners to determine which metrics to use for a specific LLM use case. To achieve this, this study categorizes LLM bias and fairness risks, maps those risks to a taxonomy of LLM use cases, and then formally defines various metrics to assess each type of risk. As part of this work, several new bias and fairness metrics are introduced, including innovative counterfactual metrics as well as metrics based on stereotype classifiers. Instead of focusing solely on the model itself, the sensitivity of both prompt-risk and model-risk are taken into account by defining evaluations at the level of an LLM use case, characterized by a model and a population of prompts. Furthermore, because all of the evaluation metrics are calculated solely using the LLM output, the proposed framework is highly practical and easily actionable for practitioners.

arxiv情報

著者 Dylan Bouchard
発行日 2024-07-15 16:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク