Instruction-following Evaluation through Verbalizer Manipulation

要約

命令調整モデルはさまざまな自然言語処理タスクで目覚ましい成功を収めていますが、命令に従う能力を正確に評価することは依然として困難です。
既存のベンチマークは主に、トレーニング中にモデルが学習した内容とよく一致する一般的な命令に焦点を当てています。
ただし、これらの指示に応答する能力が高いということは、必ずしも指示に従う能力が高いことを意味するわけではありません。
この論文では、言語化操作と呼ばれる新しい命令追従評価プロトコルを提案します。
これは、モデルの事前分布とさまざまな程度に一致する単語でタスク ラベルを言語化するようにモデルに指示し、高度に一致した言語 (例: ポジティブな感情に対して「ポジティブ」を出力) から最小限の一致 (例: ポジティブな感情に対して「ネガティブ」を出力) までの言語化ツールを採用します。
Verbalizer の操作は、任意の分類ベンチマークとシームレスに統合して、モデルの事前分布への依存性と、事前分布をオーバーライドして指示に正確に従う機能を検査できます。
私たちは、9 つ​​のデータセットにわたって 4 つの主要なモデル ファミリの包括的な評価を実行し、それぞれに 12 セットの言語化ツールを使用します。
モデルの命令追従能力は、さまざまなファミリーやスケールにわたって、より自然でない言語化者でのパフォーマンスによって大きく区別されることが観察されています。
最も強力な GPT-4 モデルでさえ、最も困難な言語化者に対してはランダムな推測よりも優れたパフォーマンスを発揮するのに苦労しており、指示に従う能力を向上させるためには継続的な進歩の必要性が強調されています。

要約(オリジナル)

While instruction-tuned models have shown remarkable success in various natural language processing tasks, accurately evaluating their ability to follow instructions remains challenging. Existing benchmarks primarily focus on common instructions that align well with what the model learned during training. However, proficiency in responding to these instructions does not necessarily imply strong ability in instruction following. In this paper, we propose a novel instruction-following evaluation protocol called verbalizer manipulation. It instructs the model to verbalize the task label with words aligning with model priors to different extents, adopting verbalizers from highly aligned (e.g., outputting “postive” for positive sentiment), to minimally aligned (e.g., outputting “negative” for positive sentiment). Verbalizer manipulation can be seamlessly integrated with any classification benchmark to examine the model’s reliance on priors and its ability to override them to accurately follow the instructions. We conduct a comprehensive evaluation of four major model families across nine datasets, employing twelve sets of verbalizers for each of them. We observe that the instruction-following abilities of models, across different families and scales, are significantly distinguished by their performance on less natural verbalizers. Even the strongest GPT-4 model struggles to perform better than random guessing on the most challenging verbalizer, emphasizing the need for continued advancements to improve their instruction-following abilities.

arxiv情報

著者 Shiyang Li,Jun Yan,Hai Wang,Zheng Tang,Xiang Ren,Vijay Srinivasan,Hongxia Jin
発行日 2023-07-20 03:54:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク