Jury: A Comprehensive Evaluation Toolkit

要約

評価は、予測ベースのシステムの基本ブロックとしてディープ ラーニングにおいて重要な役割を果たします。
しかし、膨大な数の自然言語処理 (NLP) タスクとさまざまなメトリクスの開発により、異なるシステムを異なるメトリクスで評価する際に課題が生じています。
これらの課題に対処するために、さまざまなタスクや指標にわたって評価を実行するための標準化された構造を備えた統合評価フレームワークを提供するツールキットである jury を導入します。
陪審の目的は、すべてのシステムの指標評価を標準化および改善し、コミュニティが評価の課題を克服できるように支援することです。
オープンソースのリリース以来、jury は幅広いユーザーに利用されており、https://github.com/obss/jury で入手できます。

要約(オリジナル)

Evaluation plays a critical role in deep learning as a fundamental block of any prediction-based system. However, the vast number of Natural Language Processing (NLP) tasks and the development of various metrics have led to challenges in evaluating different systems with different metrics. To address these challenges, we introduce jury, a toolkit that provides a unified evaluation framework with standardized structures for performing evaluation across different tasks and metrics. The objective of jury is to standardize and improve metric evaluation for all systems and aid the community in overcoming the challenges in evaluation. Since its open-source release, jury has reached a wide audience and is available at https://github.com/obss/jury.

arxiv情報

著者 Devrim Cavusoglu,Secil Sen,Ulas Sert,Sinan Altinuc
発行日 2024-05-20 15:40:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, D.1.3 パーマリンク