KCIF: Knowledge-Conditioned Instruction Following

要約

LLM評価ベンチマークは、従来、知識/推論機能のテストを次のように分離してきました。
この作業では、知識と指導のフォローとの相互作用を研究し、LLMSが単純な回答の修正命令に従うのに苦労していることを観察し、元の知識タスクの回答に関係しないでください。
既存の複数選択回答ベースのナレッジベンチマークを活用し、テキスト(例:変更)、数値(例:値の増加、変化のフォーマット)、リスト(例:回答候補者の並べ替え)およびディストラクタの指示(例:数値回答のケースの変更)を操作する一連の簡単な指示を適用します。
さまざまなモデルファミリからさまざまなパラメーターサイズ(1B-405B)でモデルを評価し、驚くべきことに、すべてのモデルがこのような単純なタスク構成のパフォーマンスの大幅な低下を報告していることがわかります。
大規模およびフロンティアモデルは、パフォーマンスの40〜50%の低下を報告していますが、中小サイズのモデルでは低下は重度です(80%を超えることもあります)。
私たちの結果は、従来の知識/推論と指導の次の分離の制限を強調し、これらの能力の共同研究が重要であることを示唆しています。
ベンチマークデータセット、評価フレームワークコード、および将来の作業の結果をリリースします。

要約(オリジナル)

LLM evaluation benchmarks have traditionally separated the testing of knowledge/reasoning capabilities from instruction following. In this work, we study the interaction between knowledge and instruction following, and observe that LLMs struggle to follow simple answer modifying instructions, and are also distracted by instructions that should have no bearing on the original knowledge task answer. We leverage existing multiple-choice answer based knowledge benchmarks and apply a set of simple instructions which include manipulating text (eg.: change case), numeric quantities (eg.: increase value, change formatting), operate on lists (eg.: sort answer candidates) and distractor instructions (eg.: change case of numeric answers). We evaluate models at varying parameter sizes (1B-405B) from different model families and find that, surprisingly, all models report a significant drop in performance on such simple task compositions. While large-sized and frontier models report performance drops of 40-50%, in small and medium sized models the drop is severe (sometimes exceeding 80%). Our results highlight a limitation in the traditional separation of knowledge/reasoning and instruction following, and suggest that joint-study of these capabilities are important. We release our benchmark dataset, evaluation framework code, and results for future work.

arxiv情報

著者 Rudra Murthy,Praveen Venkateswaran,Prince Kumar,Danish Contractor
発行日 2025-05-23 16:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク