要約
テキスト生成の自動評価の分野は、ここ数年で大幅な進歩を遂げました。
特に、COMET、BLEURT、SEScore2 などのニューラル メトリクスの出現以来、最新世代のメトリクスは人間の判断と高い相関を示しています。
残念ながら、ニューラル メトリクスで生成された品質スコアは解釈できず、生成出力のどの部分がメトリクスによって批判されているかは不明です。
この制限に対処するために、テキスト生成のためのオープンソースの説明可能な評価指標である INSTRUCTSCORE を紹介します。
人間による明示的な指示と GPT4 の暗黙的な知識の両方を活用することで、LLAMA モデルを微調整して、人間の判断に沿った診断レポートを作成できる評価指標を作成します。
WMT22 Zh-En 変換タスクで INSTRUCTSCORE を評価しました。この 7B モデルは、175B GPT3 ベースのベースラインを含む他の LLM ベースのベースラインを上回っています。
印象的なことに、当社の INSTRUCTSCORE は、人間による評価データによる直接の監視がなくても、人間による評価に基づいて微調整された COMET22 などの最先端の指標と同等のパフォーマンス レベルを達成しています。
要約(オリジナル)
The field of automatic evaluation of text generation made tremendous progress in the last few years. In particular, since the advent of neural metrics, like COMET, BLEURT, and SEScore2, the newest generation of metrics show a high correlation with human judgment. Unfortunately, quality scores generated with neural metrics are not interpretable, and it is unclear which part of the generation output is criticized by the metrics. To address this limitation, we present INSTRUCTSCORE, an open-source, explainable evaluation metric for text generation. By harnessing both explicit human instruction and the implicit knowledge of GPT4, we fine-tune a LLAMA model to create an evaluative metric that can produce a diagnostic report aligned with human judgment. We evaluate INSTRUCTSCORE on the WMT22 Zh-En translation task, where our 7B model surpasses other LLM-based baselines, including those based on 175B GPT3. Impressively, our INSTRUCTSCORE, even without direct supervision from human-rated data, achieves performance levels on par with state-of-the-art metrics like COMET22, which was fine-tuned on human ratings.
arxiv情報
著者 | Wenda Xu,Danqing Wang,Liangming Pan,Zhenqiao Song,Markus Freitag,William Yang Wang,Lei Li |
発行日 | 2023-05-23 17:27:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google