要約
ディープラーニングにおいて評価は、予測ベースのシステムの基本ブロックとして重要な役割を果たす。しかし、膨大な数の自然言語処理(NLP)タスクと様々なメトリクスの開発が、異なるシステムを異なるメトリクスで評価する際の課題につながっている。このような課題に対処するために、異なるタスクやメトリクス間で評価を実行するための標準化された構造を持つ、統一された評価フレームワークを提供するツールキットであるjuryを紹介する。juryの目的は、すべてのシステムのメトリクス評価を標準化して改善し、評価における課題を克服するためにコミュニティを支援することです。オープンソースのリリース以来、juryは多くの人に利用され、https://github.com/obss/jury。
要約(オリジナル)
Evaluation plays a critical role in deep learning as a fundamental block of any prediction-based system. However, the vast number of Natural Language Processing (NLP) tasks and the development of various metrics have led to challenges in evaluating different systems with different metrics. To address these challenges, we introduce jury, a toolkit that provides a unified evaluation framework with standardized structures for performing evaluation across different tasks and metrics. The objective of jury is to standardize and improve metric evaluation for all systems and aid the community in overcoming the challenges in evaluation. Since its open-source release, jury has reached a wide audience and is available at https://github.com/obss/jury.
arxiv情報
著者 | Devrim Cavusoglu,Ulas Sert,Secil Sen,Sinan Altinuc |
発行日 | 2023-10-03 13:31:28+00:00 |
arxivサイト | arxiv_id(pdf) |