Learning Evaluation Models from Large Language Models for Sequence Generation

要約

大規模な言語モデルは、シーケンス生成の評価において最先端のパフォーマンスを実現しますが、通常は多数のパラメーターを持ちます。
これは、評価能力を大規模に適用することによって提示される計算上の課題です。
この課題を克服するために、この論文では、評価機能を LLM から比較的軽量の言語モデルに移すための \textbf{e}valuation \textbf{c}apability \textbf{t}ransfer メソッドである \textbf{ECT} を提案します。

提案された ECT に基づいて、ChatGPT からさまざまな評価モデルを学習し、それらを報酬モデルとして使用して、強化学習と再ランキングのアプローチを通じて系列生成モデルを改善します。
機械翻訳、テキスト スタイルの転送、要約タスクに関する実験結果は、ECT の有効性を実証しています。
特に、学習された評価モデルをシーケンス生成モデルに適用すると、一般的に使用されるメトリクスと ChatGPT によって評価されるように、より適切なシーケンスが生成されます。

要約(オリジナル)

Large language models achieve state-of-the-art performance on sequence generation evaluation, but typically have a large number of parameters. This is a computational challenge as presented by applying their evaluation capability at scale. To overcome the challenge, in this paper, we propose \textbf{ECT}, an \textbf{e}valuation \textbf{c}apability \textbf{t}ransfer method, to transfer the evaluation capability from LLMs to relatively lightweight language models. Based on the proposed ECT, we learn various evaluation models from ChatGPT, and employ them as reward models to improve sequence generation models via reinforcement learning and reranking approaches. Experimental results on machine translation, text style transfer, and summarization tasks demonstrate the effectiveness of our ECT. Notably, applying the learned evaluation models to sequence generation models results in better generated sequences as evaluated by commonly used metrics and ChatGPT.

arxiv情報

著者 Chenglong Wang,Hang Zhou,Kaiyan Chang,Tongran Liu,Chunliang Zhang,Quan Du,Tong Xiao,Jingbo Zhu
発行日 2023-08-08 16:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク