Large Language Model Bias Mitigation from the Perspective of Knowledge Editing

要約

既存のバイアス緩和手法は、異なる社会集団間の平等を達成するために指定および評価されるため、個々の事実は脇に置かれ、結果として既存の知識が修正されるため、必然的に不合理または望ましくない予測が行われます。
この論文では、まず既存および追加で構築されたデータセットを活用して、新しいバイアス緩和ベンチマーク BiasKE を確立します。このベンチマークは、公平性、特異性、および一般化に関する補完的な指標によってバイアス解消パフォーマンスを体系的に評価します。
一方、我々は、個々の偏った知識に対するきめ細かいキャリブレーションを通じて編集可能な公平性を可能にする、新しい偏り解消手法であるフェアネススタンプ(FAST)を提案します。
包括的な実験により、FAST が知識保持のためのモデル全体の機能を妨げることなく、顕著なバイアス緩和パフォーマンスで最先端のベースラインを上回っていることが実証され、LLM での編集可能な公平性のためのきめ細かいバイアス緩和戦略の可能性が強調されています。

要約(オリジナル)

Existing debiasing methods inevitably make unreasonable or undesired predictions as they are designated and evaluated to achieve parity across different social groups but leave aside individual facts, resulting in modified existing knowledge. In this paper, we first establish a new bias mitigation benchmark BiasKE leveraging existing and additional constructed datasets, which systematically assesses debiasing performance by complementary metrics on fairness, specificity, and generalization. Meanwhile, we propose a novel debiasing method, Fairness Stamp (FAST), which enables editable fairness through fine-grained calibration on individual biased knowledge. Comprehensive experiments demonstrate that FAST surpasses state-of-the-art baselines with remarkable debiasing performance while not hampering overall model capability for knowledge preservation, highlighting the prospect of fine-grained debiasing strategies for editable fairness in LLMs.

arxiv情報

著者 Ruizhe Chen,Yichen Li,Zikai Xiao,Zuozhu Liu
発行日 2024-05-15 13:44:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク