要約
大規模言語モデル(Large Language Models: LLM)が広く採用され、使用されていることを考えると、その命令追従能力について柔軟で解釈可能な評価を行うことは極めて重要である。モデル出力間の選好判断は、複雑で多面的な選好を単一のランキングに抽出するにもかかわらず、事実上の評価基準となっている。さらに、人間によるアノテーションは時間とコストがかかるため、信頼性と解釈可能性を犠牲にして、LLMがこれらの判断を行うためにますます使用されるようになっている。本研究では、LLMが生成したインストラクション固有のチェックリストを用いて評価を構成する、完全に自動化された解釈可能な評価プロトコルであるTICK(Targeted Instruct-evaluation with ChecKlists)を提案する。LLMが生成する評価チェックリストは、インストラクションを一連のYES/NO質問に分解する。各質問は、回答候補が命令の特定の要件を満たしているかどうかを問う。TICKを使用することで、LLMが出力を直接採点する場合に比べて、LLMの判断と人間の嗜好が正確に一致する頻度が大幅に増加する(46.4%から52.2%)ことを示す。次に、STICK(Self-TICK)を使用して、自己洗練とBest-of-N選択により、複数のベンチマークで生成品質を改善できることを示します。LiveBench推論タスクにおけるSTICKの自己洗練は$+$7.8%の絶対的な改善をもたらし、STICKを用いたBest-of-N選択は実世界の命令データセットであるWildBenchにおいて$+$6.3%の絶対的な改善を達成した。このことから、構造化された多面的な自己改良は、LLMの能力をさらに向上させる有望な方法であることが示された。最後に、LLMが生成したチェックリストを、WildBench命令に対するLLM応答を直接採点する人間の評価者に提供することで、評価者間の一致度が顕著に向上した(0.194→0.256)。
要約(オリジナル)
Given the widespread adoption and usage of Large Language Models (LLMs), it is crucial to have flexible and interpretable evaluations of their instruction-following ability. Preference judgments between model outputs have become the de facto evaluation standard, despite distilling complex, multi-faceted preferences into a single ranking. Furthermore, as human annotation is slow and costly, LLMs are increasingly used to make these judgments, at the expense of reliability and interpretability. In this work, we propose TICK (Targeted Instruct-evaluation with ChecKlists), a fully automated, interpretable evaluation protocol that structures evaluations with LLM-generated, instruction-specific checklists. We first show that, given an instruction, LLMs can reliably produce high-quality, tailored evaluation checklists that decompose the instruction into a series of YES/NO questions. Each question asks whether a candidate response meets a specific requirement of the instruction. We demonstrate that using TICK leads to a significant increase (46.4% $\to$ 52.2%) in the frequency of exact agreements between LLM judgements and human preferences, as compared to having an LLM directly score an output. We then show that STICK (Self-TICK) can be used to improve generation quality across multiple benchmarks via self-refinement and Best-of-N selection. STICK self-refinement on LiveBench reasoning tasks leads to an absolute gain of $+$7.8%, whilst Best-of-N selection with STICK attains $+$6.3% absolute improvement on the real-world instruction dataset, WildBench. In light of this, structured, multi-faceted self-improvement is shown to be a promising way to further advance LLM capabilities. Finally, by providing LLM-generated checklists to human evaluators tasked with directly scoring LLM responses to WildBench instructions, we notably increase inter-annotator agreement (0.194 $\to$ 0.256).
arxiv情報
著者 | Jonathan Cook,Tim Rocktäschel,Jakob Foerster,Dennis Aumiller,Alex Wang |
発行日 | 2024-10-04 17:09:08+00:00 |
arxivサイト | arxiv_id(pdf) |