要約
大規模な言語モデル(LLMS)の指導能力を改善する上での重要な成果にもかかわらず、複数の潜在的に絡み合ったまたは矛盾する指示を処理する能力は依然としてかなりの課題です。
実際のシナリオは、秘密のプライバシー、個人的な好み、優先順位付けなど、時間の経過とともに複数の指示にわたって一貫性を必要とすることがよくあります。これは、複数のターンを統合する洗練された能力を要求し、命令が交差または競合するときに競合する目標のバランスを慎重にバランスさせます。
この作業は、複数のターンの命令を処理する際のLLMSの機能の体系的な調査を提示し、3つのレベルの難易度をカバーします。(1)命令から情報を取得し、(2)ターン全体の追跡と推論、および(3)指示間の競合を解決する。
人間のループアプローチを通じて約1.1kの高品質のマルチターン会話を備えたマルチハーヒント構造を構築し、静的とダイナミクス、推論、マルチタスクなどの9つの機能カテゴリを作成します。
私たちの発見は、異なる機能間の興味深いトレードオフを明らかにしています。
GPTモデルは優れた暗記を示していますが、選択的な情報源泉徴収を必要とするプライバシー保護タスクの有効性の低下を示しています。
より大きなモデルは、より強い推論能力を示しますが、矛盾する指示の解決に依然として苦労しています。
重要なことに、これらのパフォーマンスのギャップは、記憶のタスクに関する強力なBLEUスコアを示しているため、これらのパフォーマンスのギャップは情報の損失のみに起因することはできませんが、その注意メカニズムは複数の関連命令を効果的に統合できません。
これらの調査結果は、マルチターン命令を含む複雑な現実世界のタスクの改善のための重要な領域を強調しています。
要約(オリジナル)
Despite significant achievements in improving the instruction-following capabilities of large language models (LLMs), the ability to process multiple potentially entangled or conflicting instructions remains a considerable challenge. Real-world scenarios often require consistency across multiple instructions over time, such as secret privacy, personal preferences, and prioritization, which demand sophisticated abilities to integrate multiple turns and carefully balance competing objectives when instructions intersect or conflict. This work presents a systematic investigation of LLMs’ capabilities in handling multiple turns of instructions, covering three levels of difficulty: (1) retrieving information from instructions, (2) tracking and reasoning across turns, and (3) resolving conflicts among instructions. We construct MultiTurnInstruct with around 1.1K high-quality multi-turn conversations through the human-in-the-loop approach and result in nine capability categories, including statics and dynamics, reasoning, and multitasking. Our finding reveals an intriguing trade-off between different capabilities. While GPT models demonstrate superior memorization, they show reduced effectiveness in privacy-protection tasks requiring selective information withholding. Larger models exhibit stronger reasoning capabilities but still struggle with resolving conflicting instructions. Importantly, these performance gaps cannot be attributed solely to information loss, as models demonstrate strong BLEU scores on memorization tasks but their attention mechanisms fail to integrate multiple related instructions effectively. These findings highlight critical areas for improvement in complex real-world tasks involving multi-turn instructions.
arxiv情報
| 著者 | Chi Han | 
| 発行日 | 2025-03-28 17:17:40+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
