PrExMe! Large Scale Prompt Exploration of Open Source LLMs for Machine Translation and Summarization Evaluation

要約

大規模言語モデル (LLM) は、NLP の分野に革命をもたらしました。
特に、コンテキスト内学習機能により、自然言語生成の評価指標としても使用できるため、リソースが少ないシナリオや時間に制限のあるアプリケーションで特に有利になります。
この作業では、メトリクスの大規模なプロンプト調査である PrExMe を導入します。そこでは、機械翻訳 (MT) および要約データセットに関するオープンソース LLM ベースのメトリクスの 720 以上のプロンプト テンプレートを評価し、合計 660 万件以上の評価を評価します。
この広範な比較は、(1) 指標としての最近のオープンソース LLM のパフォーマンスのベンチマークとして機能し、(2) さまざまなプロンプト戦略の安定性と変動性を調査します。
一方で、プロンプトが安定しているシナリオがあることがわかりました。
たとえば、一部の LLM は特異な設定を示し、生成されたテキストをテキスト ラベルで採点することを好む一方、他の LLM は数値スコアを返すことを好みます。
一方で、プロンプトとモデルのランキングの安定性は、一見無害に見える変更の影響を受けやすい可能性があります。
たとえば、要求された出力形式を「0 ~ 100」から「-1 ~ +1」に変更すると、評価のランキングに大きな影響を与える可能性があります。
私たちの研究は、MT および要約評価の LLM ベースの指標に対するさまざまなプロンプト アプローチの影響を理解することに貢献し、最も安定したプロンプト パターンと潜在的な制限を明らかにします。

要約(オリジナル)

Large language models (LLMs) have revolutionized the field of NLP. Notably, their in-context learning capabilities also enable their use as evaluation metrics for natural language generation, making them particularly advantageous in low-resource scenarios and time-restricted applications. In this work, we introduce PrExMe, a large-scale prompt exploration for metrics, where we evaluate more than 720 prompt templates for open-source LLM-based metrics on machine translation (MT) and summarization datasets, totalling over 6.6M evaluations. This extensive comparison (1) serves as a benchmark of the performance of recent open-source LLMs as metrics and (2) explores the stability and variability of different prompting strategies. We discover that, on the one hand, there are scenarios for which prompts are stable. For instance, some LLMs show idiosyncratic preferences and favor to grade generated texts with textual labels while others prefer to return numeric scores. On the other hand, the stability of prompts and model rankings can be susceptible to seemingly innocuous changes. For example, changing the requested output format from ‘0 to 100’ to ‘-1 to +1’ can strongly affect the rankings in our evaluation. Our study contributes to understanding the impact of different prompting approaches on LLM-based metrics for MT and summarization evaluation, highlighting the most stable prompting patterns and potential limitations.

arxiv情報

著者 Christoph Leiter,Steffen Eger
発行日 2024-06-26 17:56:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク