AutoBencher: Creating Salient, Novel, Difficult Datasets for Language Models

要約

評価は、能力を評価し、科学の進歩を追跡し、モデルの選択に情報を提供するために重要です。
この論文では、言語モデルの優れたベンチマークに対する 3 つの要望を示します: (i) 顕著性 (たとえば、第二次世界大戦に関する知識は、歴史上のランダムな日よりも顕著です)、(ii) 新規性 (つまり、ベンチマークは新しいことを明らかにします)
(iii) 難易度 (つまり、ベンチマークは既存のモデルにとって難しいものである必要があり、将来の改善の余地が残されている)。
これら 3 つの要望を操作し、ベンチマークの作成を検索問題、つまり 3 つの要望をすべて満たすベンチマークを見つける問題として実行します。
この検索問題に取り組むために、言語モデルを使用して 3 つの要望を満たすデータセットを自動的に検索する AutoBencher を紹介します。
AutoBencher は、特権情報 (関連ドキュメントなど) を使用して信頼性の高いデータセットを構築し、検索目的に合わせて最適化するための再ランキングによる適応性を備えています。
AutoBencher を使用して、数学、多言語、知識集約型の質問応答用のデータセットを作成します。
AutoBencher のスケーラビリティにより、粒度の細かいカテゴリと末尾の知識をテストでき、既存のベンチマークよりも平均で 27% 新規性が高く、22% 難易度が高いデータセットを作成できます。
構築したデータセットを詳しく調査すると、既存のベンチマークでは捉えられない言語モデルの LM 知識の特定のギャップを特定できることがわかります。たとえば、ペルム紀絶滅とフォーディズムに関する質問応答では Gemini Pro のパフォーマンスがはるかに悪いのに対し、OpenAGI-7B のパフォーマンスは低いなどです。
新型コロナウイルス感染症に関する QA で驚くほどよく取り上げられています。

要約(オリジナル)

Evaluation is critical for assessing capabilities, tracking scientific progress, and informing model selection. In this paper, we present three desiderata for a good benchmark for language models: (i) salience (e.g., knowledge about World War II is more salient than a random day in history), (ii) novelty (i.e., the benchmark reveals new trends in model rankings not shown by previous benchmarks), and (iii) difficulty (i.e., the benchmark should be difficult for existing models, leaving headroom for future improvement). We operationalize these three desiderata and cast benchmark creation as a search problem, that of finding benchmarks that that satisfy all three desiderata. To tackle this search problem, we present AutoBencher, which uses a language model to automatically search for datasets that meet the three desiderata. AutoBencher uses privileged information (e.g. relevant documents) to construct reliable datasets, and adaptivity with reranking to optimize for the search objective. We use AutoBencher to create datasets for math, multilingual, and knowledge-intensive question answering. The scalability of AutoBencher allows it to test fine-grained categories and tail knowledge, creating datasets that are on average 27% more novel and 22% more difficult than existing benchmarks. A closer investigation of our constructed datasets shows that we can identify specific gaps in LM knowledge in language models that are not captured by existing benchmarks, such as Gemini Pro performing much worse on question answering about the Permian Extinction and Fordism, while OpenAGI-7B performing surprisingly well on QA about COVID-19.

arxiv情報

著者 Xiang Lisa Li,Evan Zheran Liu,Percy Liang,Tatsunori Hashimoto
発行日 2024-07-11 10:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク