要約
最近の研究では、LLM に適切なロールプレイング ペルソナを促すと推論能力が向上することが実証されています。
ただし、LLM のパフォーマンスは割り当てられたプロンプトに非常に影響されるため、適切なペルソナを割り当てることは困難です。
したがって、ペルソナは LLM の邪魔をし、推論能力を低下させることがあります。
この論文では、ロールプレイングと中立プロンプトの結果をアンサンブルする新しいフレームワークであるジキル \& ハイドを提案します。これは、ロールプレイング プロンプト LLM の一方的な使用によるパフォーマンスの低下を根絶し、LLM の推論能力の堅牢性を強化します。
具体的には、ジキルとハイドは、ロールプレイングと中立的なプロンプトの両方から 2 つの潜在的な解決策を収集し、LLM 評価者によるクロスチェックの後、より良い解決策を選択します。
ただし、LLM ベースの評価者は、適切なソリューションを選択するときに、プロンプト内の潜在的なソリューションの順序に影響を受ける傾向があります。
したがって、位置バイアスを軽減するための堅牢な LLM 評価器も提案します。
実験分析では、GPT-4 を使用している場合でも、12 のデータセットのうち 4 つで、ロールプレイングのプロンプトが LLM の注意をそらし、推論能力を低下させることが示されています。
さらに、ジキルとハイドは、広く使用されている 12 の推論データセットの潜在的な解決策の中からより良い選択肢を選択することで推論能力を向上させていることを明らかにします。
さらに、提案した LLM 評価器が他のベースラインよりも優れていることを示し、LLM の位置バイアスが首尾よく軽減されていることを証明します。
要約(オリジナル)
Recent studies demonstrate that prompting an appropriate role-playing persona to an LLM improves its reasoning capability. However, assigning a proper persona is difficult since an LLM’s performance is extremely sensitive to assigned prompts; therefore, personas sometimes hinder LLMs and degrade their reasoning capabilities. In this paper, we propose a novel framework, Jekyll \& Hyde, which ensembles the results of role-playing and neutral prompts to eradicate performance degradation via unilateral use of role-playing prompted LLM and enhance the robustness of an LLM’s reasoning ability. Specifically, Jekyll \& Hyde collects two potential solutions from both role-playing and neutral prompts and selects a better solution after cross-checking via an LLM evaluator. However, LLM-based evaluators tend to be affected by the order of those potential solutions within the prompt when selecting the proper solution; thus, we also propose a robust LLM evaluator to mitigate the position bias. The experimental analysis demonstrates that role-playing prompts distract LLMs and degrade their reasoning abilities in 4 out of 12 datasets, even when using GPT-4. In addition, we reveal that Jekyll \& Hyde improves reasoning capabilities by selecting better choices among the potential solutions on twelve widely-used reasoning datasets. We further show that our proposed LLM evaluator outperforms other baselines, proving the LLMs’ position bias is successfully mitigated.
arxiv情報
著者 | Junseok Kim,Nakyeong Yang,Kyomin Jung |
発行日 | 2024-08-16 09:49:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google