要約
指示に従う能力は、大規模言語モデル (LLM) が現実世界のさまざまなアプリケーションを処理するために重要です。
既存のベンチマークは、応答が指示に記載された制約に従っているかどうかを評価するのではなく、純粋な応答品質を評価することに主に焦点を当てています。
この研究のギャップを埋めるために、このホワイトペーパーでは、LLM 用のマルチレベルのきめ細かい制約に従うベンチマークである FollowBench を提案します。
FollowBench には、5 つの異なるタイプ (コンテンツ、状況、スタイル、形式、例) のきめ細かい制約が包括的に含まれています。
さまざまな困難に対する推定後の正確な制約を可能にするために、レベルが上がるごとに最初の命令に 1 つの制約を段階的に追加するマルチレベル メカニズムを導入します。
LLM の出力が個々の制約をすべて満たしているかどうかを評価するために、制約進化パスを使用して強力な LLM に、困難なオープンエンド命令を処理するように促すことを提案します。
FollowBench で 13 のクローズドソースおよびオープンソースの人気のある LLM を評価することで、指示に従う際の LLM の弱点を浮き彫りにし、将来の取り組みの可能性を示します。
データとコードは https://github.com/YJiangcm/FollowBench で公開されています。
要約(オリジナル)
The ability to follow instructions is crucial for Large Language Models (LLMs) to handle various real-world applications. Existing benchmarks primarily focus on evaluating pure response quality, rather than assessing whether the response follows constraints stated in the instruction. To fill this research gap, in this paper, we propose FollowBench, a Multi-level Fine-grained Constraints Following Benchmark for LLMs. FollowBench comprehensively includes five different types (i.e., Content, Situation, Style, Format, and Example) of fine-grained constraints. To enable a precise constraint following estimation on diverse difficulties, we introduce a Multi-level mechanism that incrementally adds a single constraint to the initial instruction at each increased level. To assess whether LLMs’ outputs have satisfied every individual constraint, we propose to prompt strong LLMs with constraint-evolution paths to handle challenging open-ended instructions. By evaluating 13 closed-source and open-source popular LLMs on FollowBench, we highlight the weaknesses of LLMs in instruction following and point towards potential avenues for future work. The data and code are publicly available at https://github.com/YJiangcm/FollowBench.
arxiv情報
| 著者 | Yuxin Jiang,Yufei Wang,Xingshan Zeng,Wanjun Zhong,Liangyou Li,Fei Mi,Lifeng Shang,Xin Jiang,Qun Liu,Wei Wang |
| 発行日 | 2024-06-05 15:39:26+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google