要約
大規模言語モデル (LLM) を評価するための新しいパラダイムである LLM-as-an-Interviewer を紹介します。
このアプローチは、LLM 面接官が回答について積極的にフィードバックを提供し、評価対象の LLM にフォローアップの質問をするマルチターン インタラクションを活用します。
インタビューの開始時に、LLM のインタビュアーはデータセットを動的に変更して最初の質問を生成し、データの汚染を軽減します。
LLM-as-an-Interviewer フレームワークを適用して、MATH タスクと DepthQA タスクの 6 つのモデルを評価します。
私たちの結果は、このフレームワークが、初期応答の品質、フィードバックへの適応性、説明や追加の知識要求などのフォローアップ クエリに対処する能力など、LLM のパフォーマンスに関する洞察を効果的に提供することを示しています。
このフレームワークは、冗長性の偏りや実行間の不一致など、LLM-as-a-Judge のような従来の手法の主要な制限にも対処します。
最後に、インタビュー プロセスからの洞察を集約し、LLM の強みと弱みの例と包括的な分析を提供するインタビュー レポートを提案します。
このレポートは、モデルの実世界への適用性の詳細なスナップショットを提供します。
私たちのフレームワークのコードは、https://github.com/interview-eval/ で公開されています。
要約(オリジナル)
We introduce LLM-as-an-Interviewer, a novel paradigm for evaluating large language models (LLMs). This approach leverages multi-turn interactions where the LLM interviewer actively provides feedback on responses and poses follow-up questions to the evaluated LLM. At the start of the interview, the LLM interviewer dynamically modifies datasets to generate initial questions, mitigating data contamination. We apply the LLM-as-an-Interviewer framework to evaluate six models on the MATH and DepthQA tasks. Our results show that the framework effectively provides insights into LLM performance, including the quality of initial responses, adaptability to feedback, and ability to address follow-up queries like clarification or additional knowledge requests. The framework also addresses key limitations of conventional methods like LLM-as-a-Judge, including verbosity bias and inconsistency across runs. Finally, we propose the Interview Report, which aggregates insights from the interview process, providing examples and a comprehensive analysis of the LLM’s strengths and weaknesses. This report offers a detailed snapshot of the model’s real-world applicability. The code for our framework is publicly available at https://github.com/interview-eval/.
arxiv情報
著者 | Eunsu Kim,Juyoung Suk,Seungone Kim,Niklas Muennighoff,Dongkwan Kim,Alice Oh |
発行日 | 2024-12-30 09:11:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google