Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models

要約

LLM がその役割を言語の統計モデリングから汎用 AI エージェントとしての役割に移す中で、LLM の評価はどのように変化するべきでしょうか?
おそらく、AI エージェントの重要な能力は、学習した基本スキルを必要に応じて柔軟に組み合わせることです。
スキルを組み合わせる能力は、(人間の)教育学だけでなく、創発現象に関する論文でも重要な役割を果たしています(Arora & Goyal、2023)。
本作では、スキルの組み合わせ能力を測る新たな評価「スキルミックス」が導入される。
評価者は $N$ スキルのリストを使用して、$k$ スキルのランダムなサブセットを繰り返し選択し、LLM にそのスキルのサブセットを組み合わせたテキストを作成するように依頼します。
サブセットの数は $N^k$ のように増加するため、たとえ控えめな $k$ であっても、この評価では、高い確率で、LLM がトレーニング セット内のどのテキストとも大きく異なるテキストを生成する必要があります。
この論文では、(a) そのような評価の設計と管理、(b) GPT-4 およびオープン LLaMA-2 70B モデルを使用した結果の自動採点 (および人間によるスポットチェック) のための方法論を開発しています。
人気のあるチャットボットのバージョンを管理すると、概ね事前の予想に沿った結果が得られましたが、驚きも含まれていました。
モデルの機能間には、人気のある LLM リーダーボードのランキングでは捉えられない大きな違いが存在します (「リーダーボードへの詰め込み」)。
さらに、単純な確率計算によると、$k=5$ における GPT-4 の合理的なパフォーマンスは、「確率的オウム」の行動を超えていることを示唆しています (Bender et al., 2021)。つまり、GPT-4 は、これまでには見られなかった方法でスキルを組み合わせています。
トレーニング。
この方法論が、将来のモデルの AI 機能に対するオープンな評価のスキルミックス ベースのエコシステムにどのようにつながるかを概略します。

要約(オリジナル)

With LLMs shifting their role from statistical modeling of language to serving as general-purpose AI agents, how should LLM evaluations change? Arguably, a key ability of an AI agent is to flexibly combine, as needed, the basic skills it has learned. The capability to combine skills plays an important role in (human) pedagogy and also in a paper on emergence phenomena (Arora & Goyal, 2023). This work introduces Skill-Mix, a new evaluation to measure ability to combine skills. Using a list of $N$ skills the evaluator repeatedly picks random subsets of $k$ skills and asks the LLM to produce text combining that subset of skills. Since the number of subsets grows like $N^k$, for even modest $k$ this evaluation will, with high probability, require the LLM to produce text significantly different from any text in the training set. The paper develops a methodology for (a) designing and administering such an evaluation, and (b) automatic grading (plus spot-checking by humans) of the results using GPT-4 as well as the open LLaMA-2 70B model. Administering a version of to popular chatbots gave results that, while generally in line with prior expectations, contained surprises. Sizeable differences exist among model capabilities that are not captured by their ranking on popular LLM leaderboards (‘cramming for the leaderboard’). Furthermore, simple probability calculations indicate that GPT-4’s reasonable performance on $k=5$ is suggestive of going beyond ‘stochastic parrot’ behavior (Bender et al., 2021), i.e., it combines skills in ways that it had not seen during training. We sketch how the methodology can lead to a Skill-Mix based eco-system of open evaluations for AI capabilities of future models.

arxiv情報

著者 Dingli Yu,Simran Kaur,Arushi Gupta,Jonah Brown-Cohen,Anirudh Goyal,Sanjeev Arora
発行日 2023-10-26 16:55:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE パーマリンク