要約
大規模言語モデル (LLM) は、現実世界のさまざまなタスクにおいて進歩を遂げており、LLM の評価の要件が刺激されています。
既存の LLM 評価方法は主に教師あり信号ベースであり、静的なデータセットに依存しており、深い相互作用が広く存在する動的な現実世界のシナリオでは LLM の能力を評価できません。
他の LLM 評価方法は人間ベースであり、コストと時間がかかり、LLM の大規模な評価は不可能です。
上記の問題に対処するために、私たちは新しいディープ インタラクション ベースの LLM 評価フレームワークを提案します。
私たちが提案するフレームワークでは、現実世界のドメインにおける LLM のパフォーマンスは、精巧に設計された評価タスクにおける他の LLM との深い相互作用から評価できます。
さらに、私たちが提案するフレームワークは、機械翻訳やコード生成などの現実世界のタスクのホストに適用できる一般的な評価方法です。
精巧に設計された 4 つの評価タスクに関する広範な実験を通じて、提案した方法の有効性を実証します。
要約(オリジナル)
Large Language Models (LLMs) have made progress in various real-world tasks, which stimulates requirements for the evaluation of LLMs. Existing LLM evaluation methods are mainly supervised signal-based which depends on static datasets and cannot evaluate the ability of LLMs in dynamic real-world scenarios where deep interaction widely exists. Other LLM evaluation methods are human-based which are costly and time-consuming and are incapable of large-scale evaluation of LLMs. To address the issues above, we propose a novel Deep Interaction-based LLM-evaluation framework. In our proposed framework, LLMs’ performances in real-world domains can be evaluated from their deep interaction with other LLMs in elaborately designed evaluation tasks. Furthermore, our proposed framework is a general evaluation method that can be applied to a host of real-world tasks such as machine translation and code generation. We demonstrate the effectiveness of our proposed method through extensive experiments on four elaborately designed evaluation tasks.
arxiv情報
著者 | Jiatong Li,Rui Li,Qi Liu |
発行日 | 2023-09-08 15:00:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google