FairSISA: Ensemble Post-Processing to Improve Fairness of Unlearning in LLMs

要約

大規模言語モデル (LLM) のトレーニングは、時間と計算リソースの点でコストがかかる作業です。
教師なし事前トレーニング段階で使用される大量のトレーニング データにより、すべてのデータを検証することが困難になり、残念ながらトレーニング中に望ましくないデータが取り込まれる可能性があります。
ゼロから再トレーニングすることは非現実的であり、再トレーニングせずに望ましくない情報を「アンラーニング」するようにモデルを変更する「アンラーニング」規律の作成につながりました。
ただし、変更を加えると、特に公平性などの主要な側面で LLM の動作が変わる可能性があります。
これは、LLM のアンラーニングと公平性の間の相互作用を調査した最初の研究です。
特に、SISA [Bourtoule et al., 2021] として知られる一般的な非学習フレームワークに焦点を当てます。これは、結合されていないシャードでトレーニングされたモデルのアンサンブルを作成します。
我々は、SISA のパフォーマンスと公平性のトレードオフを評価し、SISA が実際に LLM の公平性を低下させる可能性があることを経験的に実証します。
これを解決するために、SISA によって生成されたアンサンブル モデルに対する後処理バイアス軽減手法を提案します。
[Hardt et al., 2016] の後処理公平性向上手法を応用して、モデル アンサンブルを処理できる 3 つの方法を設計し、そのうちの 1 つがモデルのアンサンブルに最適な公平予測子であることを証明します。
実験結果を通じて、「FairSISA」と呼ばれる後処理フレームワークの有効性を実証します。

要約(オリジナル)

Training large language models (LLMs) is a costly endeavour in terms of time and computational resources. The large amount of training data used during the unsupervised pre-training phase makes it difficult to verify all data and, unfortunately, undesirable data may be ingested during training. Re-training from scratch is impractical and has led to the creation of the ‘unlearning’ discipline where models are modified to ‘unlearn’ undesirable information without retraining. However, any modification can alter the behaviour of LLMs, especially on key dimensions such as fairness. This is the first work that examines this interplay between unlearning and fairness for LLMs. In particular, we focus on a popular unlearning framework known as SISA [Bourtoule et al., 2021], which creates an ensemble of models trained on disjoint shards. We evaluate the performance-fairness trade-off for SISA, and empirically demsontrate that SISA can indeed reduce fairness in LLMs. To remedy this, we propose post-processing bias mitigation techniques for ensemble models produced by SISA. We adapt the post-processing fairness improvement technique from [Hardt et al., 2016] to design three methods that can handle model ensembles, and prove that one of the methods is an optimal fair predictor for ensemble of models. Through experimental results, we demonstrate the efficacy of our post-processing framework called ‘FairSISA’.

arxiv情報

著者 Swanand Ravindra Kadhe,Anisa Halimi,Ambrish Rawat,Nathalie Baracaldo
発行日 2023-12-12 16:44:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG パーマリンク