Wait, that’s not an option: LLMs Robustness with Incorrect Multiple-Choice Options

要約

この作業では、有効な回答が含まれていない複数選択の質問が提示された場合、LLMSの能力を評価する能力を評価するための新しいフレームワークを紹介します。
算術、ドメイン固有の知識、およびハイステークスの医療決定タスク全体の体系的な評価を通じて、トレーニング後のアラインドモデルはしばしば無効なオプションを選択することをデフォルトし、ベースモデルはモデルサイズでスケーリングする改善された拒否機能を示すことを実証します。
私たちの分析では、アラインメント手法は、有用性を高めることを目的としていますが、モデルの反射判断を不注意に損なう可能性があることが明らかになりました。
さらに、同様の指導に従うバイアスを示す並行者の研究を実施し、これらのバイアスがアライメントで使用される人間のフィードバックデータセットを介してどのように伝播するかに影響を与えます。
モデルサイズ、トレーニング技術、および迅速なエンジニアリングの影響を調べる広範なアブレーション研究を提供します。
私たちの調査結果は、現実世界の展開のためのより堅牢なAIシステムを開発するために重要な意味を持つ、アラインメントの最適化と重要な推論能力の保存との間の基本的な緊張を強調しています。

要約(オリジナル)

This work introduces a novel framework for evaluating LLMs’ capacity to balance instruction-following with critical reasoning when presented with multiple-choice questions containing no valid answers. Through systematic evaluation across arithmetic, domain-specific knowledge, and high-stakes medical decision tasks, we demonstrate that post-training aligned models often default to selecting invalid options, while base models exhibit improved refusal capabilities that scale with model size. Our analysis reveals that alignment techniques, though intended to enhance helpfulness, can inadvertently impair models’ reflective judgment–the ability to override default behaviors when faced with invalid options. We additionally conduct a parallel human study showing similar instruction-following biases, with implications for how these biases may propagate through human feedback datasets used in alignment. We provide extensive ablation studies examining the impact of model size, training techniques, and prompt engineering. Our findings highlight fundamental tensions between alignment optimization and preservation of critical reasoning capabilities, with important implications for developing more robust AI systems for real-world deployment.

arxiv情報

著者 Gracjan Góral,Emilia Wiśnios,Piotr Sankowski,Paweł Budzianowski
発行日 2025-06-02 09:08:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク