MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback

要約

複雑なタスクを解決するために、大規模言語モデル (LLM) では多くの場合、ユーザーとの複数回の対話が必要になり、外部ツールの支援を受けることもあります。
しかし、現在の評価プロトコルでは、シングルターン交換でのベンチマーク パフォーマンスが強調されることが多く、ユーザー、LLM、外部ツール間の微妙なやり取りが無視され、ユーザーからの自然言語フィードバックの重要性も過小評価されています。
これらの見落としは、研究ベンチマークの評価と実際の使用例との間の相違に寄与します。
MINT は、(1) ツールの使用、(2) 自然言語フィードバックの活用によって、マルチターン インタラクションを含むタスクを解決する LLM の能力を評価するベンチマークです。
再現性を確保するために、LLM が Python コードを実行してツールにアクセスし、GPT-4 によってシミュレートされたユーザーの自然言語フィードバックを受け取ることができる評価フレームワークを提供します。
当社は、推論、コーディング、意思決定に重点を置いた確立された評価データセットの多様なセットを再利用し、効率的な評価を実現するために慎重にそれらをコンパクトなサブセットにまとめます。
20 のオープンソースおよびクローズドソース LLM を分析したところ、興味深い結果が得られました。
(a) LLM は通常、ツールと言語フィードバックから恩恵を受け、ツール使用の各ターンで 1 ~ 8%、自然言語フィードバックで 2 ~ 17% のパフォーマンス向上 (絶対値、以下同じ) が得られます。
(b) シングルターンのパフォーマンスが向上しても、マルチターンのパフォーマンスが向上することは保証されません。
(c) 驚くべきことに、評価された LLM では、教師あり命令微調整 (SIFT) とヒューマン フィードバックからの強化学習 (RLHF) が一般的にマルチターン機能に悪影響を及ぼしました。
私たちは、MINT が進捗状況を測定し、マルチターン インタラクションにおける LLM の機能を向上させる研究の奨励に役立つことを期待しています。特に、より大きなユーザー ベースを持つ商用 LLM と比較して、マルチターンによる人間による評価が利用しにくいオープンソース コミュニティにとってはそうです。

要約(オリジナル)

To solve complex tasks, large language models (LLMs) often require multiple rounds of interactions with the user, sometimes assisted by external tools. However, current evaluation protocols often emphasize benchmark performance with single-turn exchanges, neglecting the nuanced interactions among the user, LLMs, and external tools, while also underestimating the importance of natural language feedback from users. These oversights contribute to discrepancies between research benchmark evaluations and real-world use cases. We introduce MINT, a benchmark that evaluates LLMs’ ability to solve tasks with multi-turn interactions by (1) using tools and (2) leveraging natural language feedback. To ensure reproducibility, we provide an evaluation framework where LLMs can access tools by executing Python code and receive users’ natural language feedback simulated by GPT-4. We repurpose a diverse set of established evaluation datasets focusing on reasoning, coding, and decision-making and carefully curate them into a compact subset for efficient evaluation. Our analysis of 20 open- and closed-source LLMs offers intriguing findings. (a) LLMs generally benefit from tools and language feedback, with performance gains (absolute, same below) of 1-8% for each turn of tool use and 2-17% with natural language feedback. (b) Better single-turn performance does not guarantee better multi-turn performance. (c) Surprisingly, on the LLMs evaluated, supervised instruction-finetuning (SIFT) and reinforcement learning from human feedback (RLHF) generally hurt multi-turn capabilities. We expect MINT can help measure progress and incentivize research in improving LLMs’ capabilities in multi-turn interactions, especially for open-source communities where multi-turn human evaluation can be less accessible compared to commercial LLMs with a larger user base.

arxiv情報

著者 Xingyao Wang,Zihan Wang,Jiateng Liu,Yangyi Chen,Lifan Yuan,Hao Peng,Heng Ji
発行日 2024-03-12 15:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク