要約
指示に従う能力は、現実世界のさまざまなアプリケーションを処理する大規模言語モデル (LLM) にとって重要です。
既存のベンチマークは主に表面的な応答品質の評価に焦点を当てており、必ずしも指示に従う能力を示すものではありません。
この研究ギャップを埋めるために、このホワイトペーパーでは、LLM 用のマルチレベルのきめ細かい制約に従うベンチマークである FollowBench を提案します。
FollowBench には、5 つの異なるタイプ (コンテンツ、シナリオ、スタイル、フォーマット、例) のきめ細かい制約が包括的に含まれています。
推定後の正確な制約を可能にするために、各レベルの初期命令に 1 つの制約を段階的に追加するマルチレベル メカニズムを導入します。
LLM の出力が個々の制約をすべて満たしているかどうかを評価するために、困難な意味論的制約を処理するための制約進化パスを持つ強力な LLM を促すことを提案します。
FollowBench で 9 つのクローズドソースおよびオープンソースの人気のある LLM を評価することで、指示に従う際の LLM の弱点を浮き彫りにし、将来の取り組みの可能性を示します。
データとコードは https://github.com/YJiangcm/FollowBench で公開されています。
要約(オリジナル)
The ability to follow instructions is crucial to Large Language Models (LLMs) to handle various real-world applications. Existing benchmarks primarily focus on evaluating superficial response quality, which does not necessarily indicate instruction-following capability. To fill this research gap, in this paper, we propose FollowBench, a Multi-level Fine-grained Constraints Following Benchmark for LLMs. FollowBench comprehensively includes five different types (i.e., Content, Scenario, Style, Format, and Example) of fine-grained constraints. To enable a precise constraint following estimation, we introduce a Multi-level mechanism that incrementally adds a single constraint to the initial instruction at each level. To evaluate whether LLMs’ outputs have satisfied every individual constraint, we propose to prompt strong LLMs with constraint evolution paths to handle challenging semantic constraints. By evaluating nine closed-source and open-source popular LLMs on FollowBench, we highlight the weaknesses of LLMs in instruction following and point towards potential avenues for future work. The data and code are publicly available at https://github.com/YJiangcm/FollowBench.
arxiv情報
著者 | Yuxin Jiang,Yufei Wang,Xingshan Zeng,Wanjun Zhong,Liangyou Li,Fei Mi,Lifeng Shang,Xin Jiang,Qun Liu,Wei Wang |
発行日 | 2023-10-31 12:32:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google