Information Gain-Guided Causal Intervention for Autonomous Debiasing Large Language Models

要約

大幅な進歩にもかかわらず、最近の研究は、現在の大規模な言語モデル(LLMS)がデータセットバイアスをキャプチャし、推論中にそれらを利用し、LLMの一般化が不十分になる可能性があることを示しています。
ただし、データセットバイアスの多様性と、コンテキスト内学習に基づくバイアス抑制の性質が不十分であるため、以前の事前知識ベースの衰弱方法とコンテキスト内の学習ベースの自動脱毛方法の有効性は限られています。
これらの課題に対処するために、因果メカニズムと情報理論の組み合わせを調査し、情報ゲインガイド付き因果介入境界(IGCIDB)フレームワークを提案します。
このフレームワークは、最初に情報ゲインガイド付き因果介入方法を使用して、命令調整データセットの分布の自動的かつ自律的にバランスをとることです。
その後、Debiased DatasetでLLMSをトレーニングするために、標準的な監視された微調整プロセスを採用しています。
実験結果は、IGCIDBが効果的にDebias LLMを効果的にDebias LLMができることを示しています。

要約(オリジナル)

Despite significant progress, recent studies indicate that current large language models (LLMs) may still capture dataset biases and utilize them during inference, leading to the poor generalizability of LLMs. However, due to the diversity of dataset biases and the insufficient nature of bias suppression based on in-context learning, the effectiveness of previous prior knowledge-based debiasing methods and in-context learning based automatic debiasing methods is limited. To address these challenges, we explore the combination of causal mechanisms with information theory and propose an information gain-guided causal intervention debiasing (IGCIDB) framework. This framework first utilizes an information gain-guided causal intervention method to automatically and autonomously balance the distribution of instruction-tuning dataset. Subsequently, it employs a standard supervised fine-tuning process to train LLMs on the debiased dataset. Experimental results show that IGCIDB can effectively debias LLM to improve its generalizability across different tasks.

arxiv情報

著者 Zhouhao Sun,Xiao Ding,Li Du,Yunpeng Xu,Yixuan Ma,Yang Zhao,Bing Qin,Ting Liu
発行日 2025-04-17 12:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク