要約
大規模な言語モデル(LLMS)は会話型インターフェイスです。
そのため、LLMは、ユーザーが目前のタスクを完全に指定できる場合だけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練するのに役立つ可能性があります。
LLMの会話ログの分析により、ユーザーの命令では頻繁に特化が頻繁に発生することが確認されていますが、LLM評価は主に単一ターン、完全に指定された命令設定に焦点を当てています。
この作業では、大規模なシミュレーション実験を実行して、シングルおよびマルチターン設定でLLMパフォーマンスを比較します。
私たちの実験では、テストされたすべてのトップオープンウェイトおよび閉じた重量LLMが、シングルターンよりもマルチターン会話でパフォーマンスが大幅に低く、6世代のタスクで平均39%の低下が示されていることを確認しています。
200,000以上のシミュレートされた会話の分析により、パフォーマンスの劣化が2つのコンポーネントに分解されます。適性のわずかな損失と信頼性の大幅な増加です。
LLMはしばしば早い段階で仮定をし、最終的なソリューションを生成しようとしていることがわかります。
簡単に言えば、 *LLMSが会話で間違った方向を進むと、迷子になり、回復しないことがわかります。
要約(オリジナル)
Large Language Models (LLMs) are conversational interfaces. As such, LLMs have the potential to assist their users not only when they can fully specify the task at hand, but also to help them define, explore, and refine what they need through multi-turn conversational exchange. Although analysis of LLM conversation logs has confirmed that underspecification occurs frequently in user instructions, LLM evaluation has predominantly focused on the single-turn, fully-specified instruction setting. In this work, we perform large-scale simulation experiments to compare LLM performance in single- and multi-turn settings. Our experiments confirm that all the top open- and closed-weight LLMs we test exhibit significantly lower performance in multi-turn conversations than single-turn, with an average drop of 39% across six generation tasks. Analysis of 200,000+ simulated conversations decomposes the performance degradation into two components: a minor loss in aptitude and a significant increase in unreliability. We find that LLMs often make assumptions in early turns and prematurely attempt to generate final solutions, on which they overly rely. In simpler terms, we discover that *when LLMs take a wrong turn in a conversation, they get lost and do not recover*.
arxiv情報
著者 | Philippe Laban,Hiroaki Hayashi,Yingbo Zhou,Jennifer Neville |
発行日 | 2025-05-09 15:21:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google