要約
機械生成された自然言語コンテンツの品質を評価することは、自然言語処理 (NLP) における困難なタスクです。
最近、GPT-4 のような大規模言語モデル (LLM) がこの目的に採用されていますが、複雑な評価プロンプトに必要な大量のトークンの使用により、計算コストが高くなります。
このペーパーでは、より小さく微調整された言語モデルを使用して評価プロンプトの入力データを圧縮するプロンプト最適化アプローチを提案します。これにより、ダウンストリーム評価に大規模な LLM を使用する場合のトークンの使用量と計算コストが削減されます。
私たちの方法には、2 段階の微調整プロセスが含まれます。つまり、教師付き微調整に続いて、人間の好みに基づいてモデルの出力を調整するための好みの最適化です。
私たちは機械翻訳 (MT) の評価に焦点を当てており、出発点として GEMBA-MQM メトリクスを利用しています。
その結果、評価の品質を損なうことなく、トークンの使用量が $2.37\times$ 削減されたことがわかりました。
この取り組みにより、GEMBA-MQM などの最先端の LLM ベースのメトリクスのコスト効率と効率が向上し、より幅広い用途に向けたアクセシビリティが強化されます。
要約(オリジナル)
Evaluating the quality of machine-generated natural language content is a challenging task in Natural Language Processing (NLP). Recently, large language models (LLMs) like GPT-4 have been employed for this purpose, but they are computationally expensive due to the extensive token usage required by complex evaluation prompts. In this paper, we propose a prompt optimization approach that uses a smaller, fine-tuned language model to compress input data for evaluation prompt, thus reducing token usage and computational cost when using larger LLMs for downstream evaluation. Our method involves a two-stage fine-tuning process: supervised fine-tuning followed by preference optimization to refine the model’s outputs based on human preferences. We focus on Machine Translation (MT) evaluation and utilize the GEMBA-MQM metric as a starting point. Our results show a $2.37\times$ reduction in token usage without any loss in evaluation quality. This work makes state-of-the-art LLM-based metrics like GEMBA-MQM more cost-effective and efficient, enhancing their accessibility for broader use.
arxiv情報
著者 | Daniil Larionov,Steffen Eger |
発行日 | 2024-12-20 18:08:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google