要約
大規模な言語モデル(LLM)は、幅広いタスクのために作業環境でますます使用されており、個々の問題を単独で解決するのに優れています。
しかし、彼らはまた、長期的な相互作用に関して効果的に協力することができますか?
これを調査するために、リアルな設定をシミュレートし、無関係な情報の中で簡単なコーディング命令を追跡および実行するLLMSの機能をテストするために設計された合成マルチセッションデータセットであるメモリコードを紹介します。
テストしたすべてのモデルは、分離命令をうまく処理しますが、GPT-4Oのような最先端モデルのパフォーマンスでさえ、セッション全体に命令が広がると劣化します。
私たちの分析は、これが長い指導チェーンよりも情報を取得して統合しなかったことによるものであることを示唆しています。
私たちの結果は、現在のLLMの基本的な制限を強調し、長い相互作用で効果的に協力する能力を制限しています。
要約(オリジナル)
Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs’ ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.
arxiv情報
著者 | Nathanaël Carraz Rakotonirina,Mohammed Hamdy,Jon Ander Campos,Lucas Weber,Alberto Testoni,Marzieh Fadaee,Sandro Pezzelle,Marco Del Tredici |
発行日 | 2025-02-19 14:58:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google