Rethinking Prompt-based Debiasing in Large Language Models

要約

大規模な言語モデル(LLMS)でのバイアスの調査は、信頼できるAIを開発するために重要です。
迅速なプロンプトエンジニアリングを通じてプロンプトベースは一般的ですが、その有効性は、モデルが本質的にバイアスを理解しているという仮定に依存しています。
私たちの研究は、オープンソースモデルと商用GPTモデルの両方でバーベキューとステレオセットのベンチマークを使用して、この仮定を体系的に分析しました。
実験結果は、プロンプトベースがしばしば表面的であることを示しています。
たとえば、LLAMA2-7B-CHATモデルは、BBQデータセットのバイアス問題を特定する際に高い精度を達成しているにもかかわらず、偏見のないコンテンツの90%以上を偏見として誤分類しました。
さらに、バイアスベンチマークの特定の評価と質問設定は、多くの場合、LLMが「回避的な答え」を選択し、質問の中核とコンテキストへの回答の関連性を無視します。
さらに、以前の方法の明らかな成功は、欠陥のある評価メトリックに起因する可能性があります。
私たちの研究は、迅速な努力における潜在的な「誤った繁栄」を強調し、真に信頼できるAIを確保するためにバイアスメトリックを再考する必要性を強調しています。

要約(オリジナル)

Investigating bias in large language models (LLMs) is crucial for developing trustworthy AI. While prompt-based through prompt engineering is common, its effectiveness relies on the assumption that models inherently understand biases. Our study systematically analyzed this assumption using the BBQ and StereoSet benchmarks on both open-source models as well as commercial GPT model. Experimental results indicate that prompt-based is often superficial; for instance, the Llama2-7B-Chat model misclassified over 90% of unbiased content as biased, despite achieving high accuracy in identifying bias issues on the BBQ dataset. Additionally, specific evaluation and question settings in bias benchmarks often lead LLMs to choose ‘evasive answers’, disregarding the core of the question and the relevance of the response to the context. Moreover, the apparent success of previous methods may stem from flawed evaluation metrics. Our research highlights a potential ‘false prosperity’ in prompt-base efforts and emphasizes the need to rethink bias metrics to ensure truly trustworthy AI.

arxiv情報

著者 Xinyi Yang,Runzhe Zhan,Derek F. Wong,Shu Yang,Junchao Wu,Lidia S. Chao
発行日 2025-03-12 10:06:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク