Meeseeks: An Iterative Benchmark Evaluating LLMs Multi-Turn Instruction-Following Ability

要約

指示に正確に従う機能は、大規模な言語モデル(LLM)が実際のアプリケーションで信頼できるエージェントとして機能するための基本です。
既存の命令に従うベンチマークは、自己修正を許可することなく、各ターンに新しい要件を導入するか、繰り返しのフィードバックプロセスを通じて現実的な人間との相互作用をシミュレートします。
この設計により、モデルは特定の要件障害に基づいて自己修正でき、実際のユーザーエンドの使用パターンをよりよく反映します。
ベンチマークは、意図認識、粒状コンテンツ検証、出力構造検証の3つの次元に編成された38の機能タグを備えた包括的な評価システムを実装しています。
LLMS全体の厳密な評価を通じて、MeeSeeksは、実際のアプリケーションでLLMSの指導に応じる機能に関する貴重な洞察を提供します。

要約(オリジナル)

The ability to follow instructions accurately is fundamental for Large Language Models (LLMs) to serve as reliable agents in real-world applications. While existing instruction-following benchmarks are either single-turn or introduce new requirements in each turn without allowing self-correction, Meeseeks simulates realistic human-LLM interactions through an iterative feedback process. This design enables models to self-correct based on specific requirement failures, better reflecting real-world user-end usage patterns. The benchmark implements a comprehensive evaluation system with 38 capability tags organized across three dimensions: Intent Recognition, Granular Content Validation, and Output Structure Validation. Through rigorous evaluation across LLMs, Meeseeks provides valuable insights into LLMs’ instruction-following capabilities in practical applications.

arxiv情報

著者 Jiaming Wang
発行日 2025-04-30 13:28:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク