要約
自然言語生成 (NLG) モデルの評価はますます注目を集めており、生成されたテキストのさまざまな側面を評価する指標の開発が求められています。
LUNA は、20 の NLG 評価指標用の統合インターフェイスを導入することで、この課題に対処します。
これらのメトリクスは、文字列ベースの N グラムのオーバーラップから静的埋め込みや事前トレーニングされた言語モデルの利用に至るまで、参照依存性と使用するテキスト表現のタイプに基づいて分類されます。
LUNA の単純な設計により、わずか数行のコードを必要とするだけで、新しいメトリクスを使用して簡単に拡張できます。
LUNA は、生成されたテキストを評価するための使いやすいツールを提供します。
要約(オリジナル)
The evaluation of Natural Language Generation (NLG) models has gained increased attention, urging the development of metrics that evaluate various aspects of generated text. LUNA addresses this challenge by introducing a unified interface for 20 NLG evaluation metrics. These metrics are categorized based on their reference-dependence and the type of text representation they employ, from string-based n-gram overlap to the utilization of static embeddings and pre-trained language models. The straightforward design of LUNA allows for easy extension with novel metrics, requiring just a few lines of code. LUNA offers a user-friendly tool for evaluating generated texts.
arxiv情報
著者 | Marat Saidov,Aleksandra Bakalova,Ekaterina Taktasheva,Vladislav Mikhailov,Ekaterina Artemova |
発行日 | 2024-01-09 12:31:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google