Hierarchical Prompting Taxonomy: A Universal Evaluation Framework for Large Language Models

要約

多様なタスクに対処する際の大規模言語モデル (LLM) の有効性を評価することは、その長所と短所を理解するために不可欠です。
従来の評価手法は通常、タスクの複雑さの程度の変化を考慮せず、単一のプロンプト戦略をデータセット全体に均一に適用します。
階層プロンプト分類法 (HPT) を紹介します。これは、LLM をより正確に評価し、より明確な視点を提供するために、最も単純なものから最も複雑なものまで配置された 5 つの独自のプロンプト戦略で構成される階層プロンプト フレームワーク (HPF) を使用する分類法です。
この分類法は、階層的プロンプティング スコア (HP スコア) と呼ばれるスコアを、分類法のルールに基づいてデータセットと LLM に割り当てます。これにより、多様なタスクを解決する能力の微妙な理解を提供し、タスクの複雑さの普遍的な尺度を提供します。

さらに、各タスクに適切なプロンプト戦略の選択を自動化するアダプティブ階層プロンプト フレームワークを導入します。
この研究では、4 つのデータセット (BoolQ、CommonSenseQA (CSQA)、IWSLT-2017 en-fr) にわたって、4 つの命令調整 LLM (Llama 3 8B、Phi 3 3.8B、Mistral 7B、Gemma 7B) を使用した手動および適応型階層プロンプト フレームワークを比較しています。
(IWSLT)、および SamSum。
実験では HPT の有効性を実証し、さまざまなタスクと LLM 機能を比較するための信頼できる方法を提供します。
この論文は、データセットの複雑さと LLM の機能の両方を評価するために使用できる普遍的な評価指標の開発につながります。
手動 HPF と適応 HPF の実装は両方とも公開されています。

要約(オリジナル)

Assessing the effectiveness of large language models (LLMs) in addressing diverse tasks is essential for comprehending their strengths and weaknesses. Conventional evaluation techniques typically apply a single prompting strategy uniformly across datasets, not considering the varying degrees of task complexity. We introduce the Hierarchical Prompting Taxonomy (HPT), a taxonomy that employs a Hierarchical Prompt Framework (HPF) composed of five unique prompting strategies, arranged from the simplest to the most complex, to assess LLMs more precisely and to offer a clearer perspective. This taxonomy assigns a score, called the Hierarchical Prompting Score (HP-Score), to datasets as well as LLMs based on the rules of the taxonomy, providing a nuanced understanding of their ability to solve diverse tasks and offering a universal measure of task complexity. Additionally, we introduce the Adaptive Hierarchical Prompt framework, which automates the selection of appropriate prompting strategies for each task. This study compares manual and adaptive hierarchical prompt frameworks using four instruction-tuned LLMs, namely Llama 3 8B, Phi 3 3.8B, Mistral 7B, and Gemma 7B, across four datasets: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT), and SamSum. Experiments demonstrate the effectiveness of HPT, providing a reliable way to compare different tasks and LLM capabilities. This paper leads to the development of a universal evaluation metric that can be used to evaluate both the complexity of the datasets and the capabilities of LLMs. The implementation of both manual HPF and adaptive HPF is publicly available.

arxiv情報

著者 Devichand Budagam,Sankalp KJ,Ashutosh Kumar,Vinija Jain,Aman Chadha
発行日 2024-06-27 14:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク