要約
大規模な言語モデル(LLM)は、さまざまな方法でバイアスを示すことができます。
このようなバイアスは、性別、人種、性的指向、または年齢を含むがこれらに限定されない、保護された属性内の特定のグループの不当な結果を作成または悪化させることができます。
この論文では、実務家が特定のLLMユースケースに使用するバイアスと公平性メトリックを決定できる決定フレームワークを提案します。
フレームワークを確立するために、LLMのバイアスと公平性のリスクを定義し、それらのリスクをLLMユースケースの分類法にマッピングし、さまざまなメトリックを定義して各タイプのリスクを評価します。
モデル自体のみに焦点を当てる代わりに、モデルとプロンプトの母集団を特徴とするLLMユースケースのレベルで評価を定義することにより、プロンプト固有およびモデル固有のリスクの両方を説明します。
さらに、すべての評価メトリックはLLM出力のみを使用して計算されるため、提案されたフレームワークは非常に実用的で実践者にとって簡単に実行可能です。
合理化された実装のために、フレームワークに含まれるすべての評価メトリックは、このペーパーのコンパニオンPython Toolkit、Langfairで提供されています。
最後に、我々の実験は、ユースケース全体のバイアスと公平性の大幅な変動を示し、ユースケースレベルの評価の重要性を強調しています。
要約(オリジナル)
Large language models (LLMs) can exhibit bias in a variety of ways. Such biases can create or exacerbate unfair outcomes for certain groups within a protected attribute, including, but not limited to sex, race, sexual orientation, or age. In this paper, we propose a decision framework that allows practitioners to determine which bias and fairness metrics to use for a specific LLM use case. To establish the framework, we define bias and fairness risks for LLMs, map those risks to a taxonomy of LLM use cases, and then define various metrics to assess each type of risk. Instead of focusing solely on the model itself, we account for both prompt-specific- and model-specific-risk by defining evaluations at the level of an LLM use case, characterized by a model and a population of prompts. Furthermore, because all of the evaluation metrics are calculated solely using the LLM output, our proposed framework is highly practical and easily actionable for practitioners. For streamlined implementation, all evaluation metrics included in the framework are offered in this paper’s companion Python toolkit, LangFair. Finally, our experiments demonstrate substantial variation in bias and fairness across use cases, underscoring the importance of use-case-level assessments.
arxiv情報
著者 | Dylan Bouchard |
発行日 | 2025-02-13 14:13:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google