Evaluating Language Models for Mathematics through Interactions

要約

入力と出力の静的なペアに基づく大規模言語モデル(LLM)の標準的な評価方法は、アシスタント開発には不十分です。この種の評価は、その展開に不可欠な対話的要素を考慮に入れておらず、したがって、言語モデルの能力を理解する方法を制限します。我々は、人間がLLMと対話し評価するための適応性の高いプロトタイププラットフォームであるCheckMateを紹介します。CheckMateを使って、学部レベルの数学の証明の補助として、3つの言語モデル(InstructGPT、ChatGPT、GPT-4)を評価する研究を、学部生から数学の教授までの混合コホートで実施しました。その結果得られた対話と評価のデータセットであるMathConverseを公開します。MathConverseを分析することで、人間の行動に関する予備的な分類法を導き出し、一般的に正の相関があるにもかかわらず、LLM世代では正しさと知覚された有用性の間に顕著な乖離があることを明らかにした。さらに、数学的推論におけるGPT-4の有用なシナリオと既存の問題点を、数学の専門家から寄せられた一連のケーススタディを通して明らかにします。不確実性を伝え、ユーザの修正にうまく対応し、より解釈可能で簡潔なモデルは、より良いアシスタントを構成するかもしれない。インタラクティブな評価は、これらのモデルの能力を継続的にナビゲートする有望な方法である。

要約(オリジナル)

The standard methodology of evaluating large language models (LLMs) based on static pairs of inputs and outputs is insufficient for developing assistants: this kind of assessments fails to take into account the essential interactive element in their deployment, and therefore limits how we understand language model capabilities. We introduce CheckMate, an adaptable prototype platform for humans to interact with and evaluate LLMs. We conduct a study with CheckMate to evaluate three language models~(InstructGPT, ChatGPT, and GPT-4) as assistants in proving undergraduate-level mathematics, with a mixed cohort of participants from undergraduate students to professors of mathematics. We release the resulting interaction and rating dataset, MathConverse. By analysing MathConverse, we derive a preliminary taxonomy of human behaviours and uncover that despite a generally positive correlation, there are notable instances of divergence between correctness and perceived helpfulness in LLM generations, amongst other findings. Further, we identify useful scenarios and existing issues of GPT-4 in mathematical reasoning through a series of case studies contributed by expert mathematicians. We conclude with actionable takeaways for ML practitioners and mathematicians: models which communicate uncertainty, respond well to user corrections, are more interpretable and concise may constitute better assistants; interactive evaluation is a promising way to continually navigate the capability of these models; humans should be aware of language models’ algebraic fallibility, and for that reason discern where they should be used.

arxiv情報

著者 Katherine M. Collins,Albert Q. Jiang,Simon Frieder,Lionel Wong,Miri Zilka,Umang Bhatt,Thomas Lukasiewicz,Yuhuai Wu,Joshua B. Tenenbaum,William Hart,Timothy Gowers,Wenda Li,Adrian Weller,Mateja Jamnik
発行日 2023-06-02 17:12:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.HC, cs.LG パーマリンク