要約
大規模言語モデル (LLM) は、人間の日常生活に統合される可能性があることが示されています。
したがって、ユーザーの好みは、現実のシナリオで LLM のパフォーマンスを評価するための最も重要な基準となります。
ただし、既存のベンチマークは主に、多肢選択式の質問を使用してモデルの精度を測定することに重点を置いているため、実際のアプリケーションでのモデルの機能の理解が制限されています。
私たちは、もう 1 つの人気のある中国 LLM ベンチマーク CLUE にちなんで名付けられた、包括的な中国ベンチマーク SuperCLUE を提案することでこのギャップを埋めます。
SuperCLUE には 3 つのサブタスクが含まれます。LLM バトル プラットフォーム (CArena) から派生した実際のユーザーのクエリと評価、1 回および複数ターンの対話によるオープンエンド型の質問 (OPEN)、およびオープンエンド型の質問と同じ幹を持つクローズドエンド型の質問です。
シングルターンのものは終了しました(CLOSE)。
私たちの研究は、クローズドエンド式の質問の精度が、オープンエンド式の質問で達成された人間の好みを反映するには不十分であることを示しています。
同時に、これらを相互に補完して実際のユーザーの好みを予測することもできます。
また、GPT-4 が中国語の文脈における自由形式の質問に対する人間の好みを自動的に評価する信頼できる判断者であることも実証します。
私たちのベンチマークは https://www.CLUEbenchmarks.com でリリースされます。
要約(オリジナル)
Large language models (LLMs) have shown the potential to be integrated into human daily lives. Therefore, user preference is the most critical criterion for assessing LLMs’ performance in real-world scenarios. However, existing benchmarks mainly focus on measuring models’ accuracy using multi-choice questions, which limits the understanding of their capabilities in real applications. We fill this gap by proposing a comprehensive Chinese benchmark SuperCLUE, named after another popular Chinese LLM benchmark CLUE. SuperCLUE encompasses three sub-tasks: actual users’ queries and ratings derived from an LLM battle platform (CArena), open-ended questions with single and multiple-turn dialogues (OPEN), and closed-ended questions with the same stems as open-ended single-turn ones (CLOSE). Our study shows that accuracy on closed-ended questions is insufficient to reflect human preferences achieved on open-ended ones. At the same time, they can complement each other to predict actual user preferences. We also demonstrate that GPT-4 is a reliable judge to automatically evaluate human preferences on open-ended questions in a Chinese context. Our benchmark will be released at https://www.CLUEbenchmarks.com
arxiv情報
著者 | Liang Xu,Anqi Li,Lei Zhu,Hang Xue,Changtai Zhu,Kangkang Zhao,Haonan He,Xuanwei Zhang,Qiyue Kang,Zhenzhong Lan |
発行日 | 2023-07-27 17:24:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google