Evaluating the Instruction-following Abilities of Language Models using Knowledge Tasks

要約

LLM評価ベンチマークは、従来、知識/推論機能のテストを次のように分離してきました。
この作業では、知識と指導のフォローとの相互作用を研究し、LLMSが単純な回答の修正命令に従うのに苦労していることを観察し、元の知識タスクの回答に関係しないでください。
既存の複数選択回答ベースのナレッジベンチマークを活用し、テキスト(例:変更)、数値(例:値の増加、変化のフォーマット)、リスト(例:回答候補者の並べ替え)およびディストラクタの指示(例:数値回答のケースの変更)を操作する一連の簡単な指示を適用します。

要約(オリジナル)

LLM evaluation benchmarks have traditionally separated the testing of knowledge/reasoning capabilities from instruction following. In this work, we study the interaction between knowledge and instruction following, and observe that LLMs struggle to follow simple answer modifying instructions, and are also distracted by instructions that should have no bearing on the original knowledge task answer. We leverage existing multiple-choice answer based knowledge benchmarks and apply a set of simple instructions which include manipulating text (eg.: change case), numeric quantities (eg.: increase value, change formatting), operate on lists (eg.: sort answer candidates) and distractor instructions (eg.: change case of numeric answers).

arxiv情報

著者 Rudra Murthy,Praveen Venkateswaran,Prince Kumar,Danish Contractor
発行日 2025-03-17 10:45:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク