Causal-Guided Active Learning for Debiasing Large Language Models

要約

有望なパフォーマンスを達成しているものの、最近の分析では、現在の生成大規模言語モデル (LLM) が依然としてデータセットのバイアスを捕捉して生成に利用する可能性があり、一般化性の低下と LLM の有害性につながる可能性があることが示されています。
ただし、データセットのバイアスの多様性と過剰最適化の問題により、以前の知識ベースのバイアス除去手法や微調整ベースのバイアス除去手法は現在の LLM には適さない可能性があります。
この問題に対処するために、私たちはアクティブ ラーニングと因果メカニズムの組み合わせを検討し、LLM 自体を利用して有益な偏りのあるサンプルを自動的かつ自律的に識別し、バイアス パターンを誘導するカジュアル ガイド アクティブ ラーニング (CAL) フレームワークを提案します。
次に、費用対効果が高く効率的なインコンテキスト学習ベースの方法を採用して、LLM が生成中にデータセットのバイアスを利用するのを防ぎます。
実験結果は、CAL が典型的なバイアスがかかったインスタンスを効果的に認識し、LLM をバイアス解除するためのさまざまなバイアス パターンを誘導できることを示しています。

要約(オリジナル)

Although achieving promising performance, recent analyses show that current generative large language models (LLMs) may still capture dataset biases and utilize them for generation, leading to poor generalizability and harmfulness of LLMs. However, due to the diversity of dataset biases and the over-optimization problem, previous prior-knowledge-based debiasing methods and fine-tuning-based debiasing methods may not be suitable for current LLMs. To address this issue, we explore combining active learning with the causal mechanisms and propose a casual-guided active learning (CAL) framework, which utilizes LLMs itself to automatically and autonomously identify informative biased samples and induce the bias patterns. Then a cost-effective and efficient in-context learning based method is employed to prevent LLMs from utilizing dataset biases during generation. Experimental results show that CAL can effectively recognize typical biased instances and induce various bias patterns for debiasing LLMs.

arxiv情報

著者 Zhouhao Sun,Li Du,Xiao Ding,Yixuan Ma,Kaitao Qiu,Ting Liu,Bing Qin
発行日 2024-08-23 09:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク