InFoBench: Evaluating Instruction Following Ability in Large Language Models

要約

このペーパーでは、大規模言語モデル (LLM) の命令に従う能力を評価するための新しい指標である、分解要件追従率 (DRFR) を紹介します。
現在の方法論のギャップに対処するために、DRFR は複雑な命令をより単純な基準に分解し、タスクのさまざまな側面に対する LLM のコンプライアンスの詳細な分析を容易にします。
この指標に加えて、複数の制約カテゴリにわたる 500 の多様な命令と 2,250 の分解された質問で構成されるベンチマークである InFoBench を紹介します。
私たちの実験では、DRFR を従来のスコアリング方法と比較し、人間の専門家、クラウドソースのワーカー、GPT-4 などのアノテーション ソースを調査します。
この調査結果は、DRFR の高い信頼性と、コスト効率の高いアノテーターとして GPT-4 を使用する有効性を示しています。
このフレームワークを使用していくつかの高度な LLM を評価すると、特に複雑な命令のフォローにおいて、その長所と改善が必要な領域が明らかになります。
この調査は、新しい指標とベンチマークに貢献し、将来の LLM の開発と評価のための洞察を提供します。

要約(オリジナル)

This paper introduces the Decomposed Requirements Following Ratio (DRFR), a new metric for evaluating Large Language Models’ (LLMs) ability to follow instructions. Addressing a gap in current methodologies, DRFR breaks down complex instructions into simpler criteria, facilitating a detailed analysis of LLMs’ compliance with various aspects of tasks. Alongside this metric, we present InFoBench, a benchmark comprising 500 diverse instructions and 2,250 decomposed questions across multiple constraint categories. Our experiments compare DRFR with traditional scoring methods and explore annotation sources, including human experts, crowd-sourced workers, and GPT-4. The findings demonstrate DRFR’s higher reliability and the effectiveness of using GPT-4 as a cost-efficient annotator. The evaluation of several advanced LLMs using this framework reveals their strengths and areas needing improvement, particularly in complex instruction-following. This study contributes a novel metric and benchmark, offering insights for future LLM development and evaluation.

arxiv情報

著者 Yiwei Qin,Kaiqiang Song,Yebowen Hu,Wenlin Yao,Sangwoo Cho,Xiaoyang Wang,Xuansheng Wu,Fei Liu,Pengfei Liu,Dong Yu
発行日 2024-01-07 23:01:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク