Little Giants: Exploring the Potential of Small LLMs as Evaluation Metrics in Summarization in the Eval4NLP 2023 Shared Task

要約

このペーパーでは、2023 年の Eval4NLP 共有タスクへの参加について説明および分析します。このタスクは、特に機械翻訳と要約の評価のコンテキストにおいて、大規模言語モデルが品質推定のタスクを処理できるようにするためのプロンプトベースの手法の有効性を評価することに焦点を当てています。
私たちは、標準的なプロンプト、アノテーターの指示によって通知されるプロンプト、革新的な思考連鎖プロンプトなど、さまざまなプロンプト手法を使用して体系的な実験を実施しました。
さらに、これらのアプローチをゼロショットおよびワンショット学習方法と統合して、評価手順の有効性を最大化しました。
私たちの研究により、「小規模な」オープンソース モデル (orca_mini_v3_7B) を使用してこれらのアプローチを組み合わせることで、競争力のある結果が得られることが明らかになりました。

要約(オリジナル)

This paper describes and analyzes our participation in the 2023 Eval4NLP shared task, which focuses on assessing the effectiveness of prompt-based techniques to empower Large Language Models to handle the task of quality estimation, particularly in the context of evaluating machine translations and summaries. We conducted systematic experiments with various prompting techniques, including standard prompting, prompts informed by annotator instructions, and innovative chain-of-thought prompting. In addition, we integrated these approaches with zero-shot and one-shot learning methods to maximize the efficacy of our evaluation procedures. Our work reveals that combining these approaches using a ‘small’, open source model (orca_mini_v3_7B) yields competitive results.

arxiv情報

著者 Neema Kotonya,Saran Krishnasamy,Joel Tetreault,Alejandro Jaimes
発行日 2023-11-01 17:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク