RAZOR: Sharpening Knowledge by Cutting Bias with Unsupervised Text Rewriting

要約

LLM はさまざまなタスクで優れたパフォーマンスを発揮するため広く使用されていますが、計算コストが高いため、潜在的なユーザーは事前トレーニングと微調整のパイプラインを選択することがよくあります。
ただし、手動で構築されたデータセットに蔓延するバイアスにより、トークンとラベルの間に誤った相関関係が生じ、いわゆるショートカットが作成され、微調整されたモデルの一般化が妨げられる可能性があります。
既存のバイアス除去手法は、特定のデータセットのバイアスに関する事前知識に依存することが多く、事前に取得することが困難です。
私たちは、ショートカットを軽減するためのテキスト書き換えに基づいた、新しい教師なしのデータ中心のバイアス除去アプローチである RAZOR (書き換えとゼロバイアス最適化の改良) を提案します。
RAZOR は LLM を利用して、トークン統計と位置情報によって定義されたショートカット スペース内でヒューリスティックに選択された代替案に置き換えることにより、潜在的に偏ったテキスト セグメントを繰り返し書き換えます。
このプロセスは、表面レベルのテキストの特徴を多様なラベル分布とより密接に一致させ、それによって真の言語パターンの学習を促進することを目的としています。
F1 スコアによると、教師なし SoTA モデルと比較して、RAZOR は FEVER で 3.5%、MNLI および SNLI データセットで 6.5% 向上しました。
さらに、RAZOR は特定の既知のバイアスを効果的に軽減し、事前のバイアス情報を必要とせずにバイアス関連の項を 2 倍削減します。これは、事前の情報を活用する SoTA モデルと同等の結果になります。
私たちの取り組みでは、アーキテクチャの変更よりもデータ操作を優先し、モデルのパフォーマンスと公平性を向上させる上でデータ品質が極めて重要な役割を果たすことを強調しています。
この研究は、バイアス削減と全体的なモデルの有効性に関するメトリクスを組み込むことにより、バイアス除去手法のより堅牢な評価ベンチマークの開発に貢献します。

要約(オリジナル)

Despite the widespread use of LLMs due to their superior performance in various tasks, their high computational costs often lead potential users to opt for the pretraining-finetuning pipeline. However, biases prevalent in manually constructed datasets can introduce spurious correlations between tokens and labels, creating so-called shortcuts and hindering the generalizability of fine-tuned models. Existing debiasing methods often rely on prior knowledge of specific dataset biases, which is challenging to acquire a priori. We propose RAZOR (Rewriting And Zero-bias Optimization Refinement), a novel, unsupervised, and data-focused debiasing approach based on text rewriting for shortcut mitigation. RAZOR leverages LLMs to iteratively rewrite potentially biased text segments by replacing them with heuristically selected alternatives in a shortcut space defined by token statistics and positional information. This process aims to align surface-level text features more closely with diverse label distributions, thereby promoting the learning of genuine linguistic patterns. Compared with unsupervised SoTA models, RAZOR improves by 3.5% on the FEVER and 6.5% on MNLI and SNLI datasets according to the F1 score. Additionally, RAZOR effectively mitigates specific known biases, reducing bias-related terms by x2 without requiring prior bias information, a result that is on par with SoTA models that leverage prior information. Our work prioritizes data manipulation over architectural modifications, emphasizing the pivotal role of data quality in enhancing model performance and fairness. This research contributes to developing more robust evaluation benchmarks for debiasing methods by incorporating metrics for bias reduction and overall model efficacy.

arxiv情報

著者 Shuo Yang,Bardh Prenkaj,Gjergji Kasneci
発行日 2024-12-10 17:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク