MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback

要約

複雑なタスクを解決するために、大規模言語モデル (LLM) では多くの場合、ユーザーとの複数回の対話が必要になり、外部ツールの支援を受けることもあります。
しかし、現在の評価パラダイムは、多くの場合、シングルターン交換によるベンチマークのパフォーマンスのみに焦点を当てており、ユーザー、LLM、外部ツール間の複雑な相互作用を無視しており、ベンチマーク評価と実際のユースケースの間に矛盾が生じています。
MINT ベンチマークを導入して、(1) ツールの使用、(2) 自然言語フィードバックの活用によって、マルチターン インタラクションを伴うタスクを解決する LLM の能力を評価します。
再現性を確保するために、LLM が Python コードを実行してツールにアクセスし、GPT-4 でシミュレートされたユーザーから自然言語フィードバックを受け取ることができる評価フレームワークを提供します。
私たちは、確立されたデータセットとタスクの多様なセットを推論、コーディング、意思決定に重点を置いて再利用し、効率的に評価できるよう慎重にインスタンスのコンパクトなサブセットにまとめます。
20 のオープンソースおよびクローズドソース LLM を分析したところ、興味深い結果が得られました。
(1) LLM は通常、ツールの対話と言語フィードバックから恩恵を受け、ツールの使用により追加ターンごとに 1 ~ 8%、自然言語フィードバックにより 2 ~ 17% のパフォーマンス向上 (絶対値、以下同じ) が得られます。
(2) シングルターンのパフォーマンスが向上しても、マルチターンのパフォーマンスが向上することは保証されません。
(3) 驚くべきことに、私たちが評価した LLM では、教師あり命令微調整 (SIFT) とヒューマン フィードバックからの強化学習 (RLHF) が一般的にマルチターン機能に悪影響を与えることがわかりました。
私たちは、MINT が、特に大規模なユーザー ベースを持つ商用 LLM に比べて人間によるマルチターン評価が利用しにくいオープンソース コミュニティにおいて、マルチターン インタラクションにおける LLM の機能を向上させるための進歩を測定し、研究を奨励するのに役立つことを願っています。

要約(オリジナル)

To solve complex tasks, large language models (LLMs) often require multiple rounds of interactions with the user, sometimes assisted by external tools. However, current evaluation paradigms often focus solely on benchmark performance with single-turn exchanges, neglecting the intricate interactions among the user, LLMs, and external tools, creating a discrepancy between benchmark evaluation and real-world use cases. We introduce MINT benchmark to evaluate LLMs’ ability to solve tasks with multi-turn interactions by (1) using tools and (2) leveraging natural language feedback. To ensure reproducibility, we provide an evaluation framework where LLMs can access tools by executing Python code and receive natural language feedback from the user simulated with GPT-4. We repurpose a diverse set of established datasets and tasks focusing on reasoning, coding, and decision-making and carefully curate them into a compact subset of instances for efficient evaluation. Our analysis of 20 open- and closed-source LLMs offers intriguing findings. (1) LLMs generally benefit from tool interactions and language feedback, with performance gains (absolute, same below) of 1–8% per additional turn with tool use and 2–17% with natural language feedback. (2) Better single-turn performance does not guarantee better multi-turn performance. (3) Surprisingly, on LLMs we evaluated, we found supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities. We hope MINT can help measure progress and incentivize research in improving LLMs’ capabilities in multi-turn interactions, especially for open-source communities where multi-turn human evaluation has been less accessible compared to commercial LLMs with a larger user base.

arxiv情報

著者 Xingyao Wang,Zihan Wang,Jiateng Liu,Yangyi Chen,Lifan Yuan,Hao Peng,Heng Ji
発行日 2023-09-19 15:25:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク