要約
大規模言語モデル (LLM) は人間の指示を理解することができ、従来の NLP タスクを超えた実用的なアプリケーションの可能性を示しています。
しかし、彼らは依然として、複数のタスクと制約を必要とする複雑なタスクの記述、または長いコンテキスト、ノイズ、異種情報、マルチターン形式を含む複雑な入力などの複雑な命令に苦戦しています。
これらの機能により、LLM はタスクの説明の意味上の制約を無視し、不正な形式を生成し、長さまたはサンプル数の制約に違反し、入力テキストに忠実ではないことがよくあります。
既存のベンチマークは、LLM が限定的で単純であるため、複雑な命令を理解する能力を評価するには不十分です。
このギャップを埋めるために、複雑な命令に体系的に従うLLMの能力を評価するためのベンチマークであるCELLOを提案します。
複雑な命令に対応する 8 つの機能を設計し、現実世界のシナリオから包括的な評価データセットを構築します。
また、現在の基準は不十分、偏りがある、または厳しすぎて粒度が粗いため、4 つの基準を確立し、対応する指標を開発します。
広範な実験を通じて、複雑な命令に従う際の代表的な中国語指向モデルと英語指向モデルのパフォーマンスを比較します。
CELLO のリソースは https://github.com/Abbey4799/CELLO で公開されています。
要約(オリジナル)
Large language models (LLMs) can understand human instructions, showing their potential for pragmatic applications beyond traditional NLP tasks. However, they still struggle with complex instructions, which can be either complex task descriptions that require multiple tasks and constraints, or complex input that contains long context, noise, heterogeneous information and multi-turn format. Due to these features, LLMs often ignore semantic constraints from task descriptions, generate incorrect formats, violate length or sample count constraints, and be unfaithful to the input text. Existing benchmarks are insufficient to assess LLMs’ ability to understand complex instructions, as they are close-ended and simple. To bridge this gap, we propose CELLO, a benchmark for evaluating LLMs’ ability to follow complex instructions systematically. We design eight features for complex instructions and construct a comprehensive evaluation dataset from real-world scenarios. We also establish four criteria and develop corresponding metrics, as current ones are inadequate, biased or too strict and coarse-grained. We compare the performance of representative Chinese-oriented and English-oriented models in following complex instructions through extensive experiments. Resources of CELLO are publicly available at https://github.com/Abbey4799/CELLO.
arxiv情報
著者 | Qianyu He,Jie Zeng,Wenhao Huang,Lina Chen,Jin Xiao,Qianxi He,Xunzhe Zhou,Lida Chen,Xintao Wang,Yuncheng Huang,Haoning Ye,Zihan Li,Shisong Chen,Yikai Zhang,Zhouhong Gu,Jiaqing Liang,Yanghua Xiao |
発行日 | 2024-01-08 07:49:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google