Exploring Prompting Large Language Models as Explainable Metrics

要約

このペーパーでは、NLP システムの評価と比較に関する Eval4NLP 2023 ワークショップにおける、説明可能なメトリックとしてのプロンプト大規模言語モデルの共有タスクへの IUST NLP ラボの提出について説明します。
私たちは、大規模言語モデル (LLM) を使用した要約タスクの説明可能な評価のための、ゼロショット プロンプトベースの戦略を提案しました。
実施された実験は、自然言語処理 (NLP)、特に要約の分野における評価指標としての LLM の有望な可能性を実証しています。
これらの実験では、少数ショットとゼロショットの両方のアプローチが採用されています。
提供された最良のプロンプトのパフォーマンスは、テスト データのテキスト要約タスクにおける人間の評価との Kendall 相関 0.477 を達成しました。
コードと結果は GitHub で公開されています。

要約(オリジナル)

This paper describes the IUST NLP Lab submission to the Prompting Large Language Models as Explainable Metrics Shared Task at the Eval4NLP 2023 Workshop on Evaluation & Comparison of NLP Systems. We have proposed a zero-shot prompt-based strategy for explainable evaluation of the summarization task using Large Language Models (LLMs). The conducted experiments demonstrate the promising potential of LLMs as evaluation metrics in Natural Language Processing (NLP), particularly in the field of summarization. Both few-shot and zero-shot approaches are employed in these experiments. The performance of our best provided prompts achieved a Kendall correlation of 0.477 with human evaluations in the text summarization task on the test data. Code and results are publicly available on GitHub.

arxiv情報

著者 Ghazaleh Mahmoudi
発行日 2023-11-20 06:06:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク