要約
私たちは、単一のシミュレートされた長時間にわたる user$\leftrightarrow$agent インタラクションを通じてパフォーマンスを評価する、会話型エージェント用の動的なベンチマーク システムを導入します。
インタラクションはユーザーとエージェント間の会話であり、複数のタスクが導入され、同時に実行されます。
定期的にコンテキストを切り替えてタスクをインターリーブし、エージェントの長期記憶、継続学習、情報統合能力を評価する現実的なテスト シナリオを構築します。
独自の大言語モデルとオープンソースの大言語モデルの両方から得られた結果は、LLM は一般に単一タスクの対話では良好なパフォーマンスを発揮しますが、同じタスクがインターリーブされると苦戦することを示しています。
特に、LTM システムで補完された短いコンテキストの LLM は、より大きなコンテキストを備えた LLM と同等かそれ以上のパフォーマンスを発揮します。
私たちのベンチマークは、現代のベンチマークがこれまで捉えることができなかった、より自然なインタラクションに対応する LLM には別の課題があることを示唆しています。
要約(オリジナル)
We introduce a dynamic benchmarking system for conversational agents that evaluates their performance through a single, simulated, and lengthy user$\leftrightarrow$agent interaction. The interaction is a conversation between the user and agent, where multiple tasks are introduced and then undertaken concurrently. We context switch regularly to interleave the tasks, which constructs a realistic testing scenario in which we assess the Long-Term Memory, Continual Learning, and Information Integration capabilities of the agents. Results from both proprietary and open-source Large-Language Models show that LLMs in general perform well on single-task interactions, but they struggle on the same tasks when they are interleaved. Notably, short-context LLMs supplemented with an LTM system perform as well as or better than those with larger contexts. Our benchmark suggests that there are other challenges for LLMs responding to more natural interactions that contemporary benchmarks have heretofore not been able to capture.
arxiv情報
著者 | David Castillo-Bolado,Joseph Davidson,Finlay Gray,Marek Rosa |
発行日 | 2024-09-30 12:01:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google