要約
大規模言語モデル (LLM) のコンテキスト学習や思考連鎖などの既存のプロンプト手法は顕著な進歩を遂げていますが、依然としてさまざまなバイアスに関連する課題に直面しています。
従来のバイアス除去手法は、データの拡張や再重み付けに基づくアプローチなど、主にモデルのトレーニング段階に焦点を当てていますが、LLM に固有の複雑なバイアスに対処するのに苦労しています。
このような制限に対処するために、プロンプト手法の背後にある因果関係が構造的因果モデルを使用して明らかにされ、LLM のバイアスを効果的に軽減するためのフロントドア調整に基づく新しい因果プロンプト手法が提案されています。
具体的には、因果的介入は、LLM のパラメータやロジットにアクセスせずにプロンプトを設計することによって実現されます。
LLM によって生成された思考連鎖はメディエーター変数として使用され、入力プロンプトと出力回答の間の因果効果は、モデルのバイアスを軽減するためのフロントドア調整を通じて計算されます。
さらに、思考連鎖を正確に表現し、因果関係を推定するために、対照学習を使用して思考連鎖のエンコーダーの空間を LLM の空間に合わせて微調整します。
実験結果は、提案された因果的プロンプティングアプローチが、オープンソースとクローズドソースの両方の LLM 上の 7 つの自然言語処理データセットにわたって優れたパフォーマンスを達成することを示しています。
要約(オリジナル)
Despite the notable advancements of existing prompting methods, such as In-Context Learning and Chain-of-Thought for Large Language Models (LLMs), they still face challenges related to various biases. Traditional debiasing methods primarily focus on the model training stage, including approaches based on data augmentation and reweighting, yet they struggle with the complex biases inherent in LLMs. To address such limitations, the causal relationship behind the prompting methods is uncovered using a structural causal model, and a novel causal prompting method based on front-door adjustment is proposed to effectively mitigate LLMs biases. In specific, causal intervention is achieved by designing the prompts without accessing the parameters and logits of LLMs. The chain-of-thought generated by LLM is employed as the mediator variable and the causal effect between input prompts and output answers is calculated through front-door adjustment to mitigate model biases. Moreover, to accurately represent the chain-of-thoughts and estimate the causal effects, contrastive learning is used to fine-tune the encoder of chain-of-thought by aligning its space with that of the LLM. Experimental results show that the proposed causal prompting approach achieves excellent performance across seven natural language processing datasets on both open-source and closed-source LLMs.
arxiv情報
著者 | Congzhi Zhang,Linhai Zhang,Jialong Wu,Yulan He,Deyu Zhou |
発行日 | 2024-12-17 16:10:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google