Thresh: A Unified, Customizable and Deployable Platform for Fine-Grained Text Evaluation

要約

きめ細かいスパンレベルの人による評価は、要約、簡略化、機械翻訳、ニュース生成などのテキスト生成タスクを評価するための信頼性が高く堅牢な方法として浮上しており、派生したアノテーションは自動メトリクスのトレーニングや言語モデルの改善に役立ちます。
ただし、これらの評価フレームワーク用に実装された既存のアノテーション ツールには、さまざまなドメインや言語に拡張したり、ユーザーのニーズに応じてアノテーション設定を変更したりするための適応性がありません。
また、統一された注釈付きデータ形式が存在しないため、マルチタスク学習の研究が阻害されます。
このペーパーでは、きめ細かい評価を行うための、カスタマイズ可能で展開可能な統合プラットフォームである Thresh を紹介します。
単一の YAML 構成ファイルを使用すると、ユーザーはあらゆるフレームワークのアノテーション インターフェイスを数分以内に、すべて 1 つの Web ブラウザ ウィンドウで構築してテストできます。
コラボレーションと共有を促進するために、Thresh は、幅広い NLP タスクをカバーする、きめ細かいフレームワークと、コミュニティによって作成および収集された対応するアノテーションのコレクションをホストするコミュニティ ハブを提供します。
Thresh は、展開に関して、小規模な手動検査から大規模なクラウドソーシングまで、あらゆる規模のアノテーション プロジェクトに対応する複数のオプションを提供します。
さらに、タイポロジーの設計と展開からアノテーション処理に至るまでのプロセス全体を合理化するための Python ライブラリを導入します。
Thresh は https://thresh.tools で公開されています。

要約(オリジナル)

Fine-grained, span-level human evaluation has emerged as a reliable and robust method for evaluating text generation tasks such as summarization, simplification, machine translation and news generation, and the derived annotations have been useful for training automatic metrics and improving language models. However, existing annotation tools implemented for these evaluation frameworks lack the adaptability to be extended to different domains or languages, or modify annotation settings according to user needs; and, the absence of a unified annotated data format inhibits the research in multi-task learning. In this paper, we introduce Thresh, a unified, customizable and deployable platform for fine-grained evaluation. With a single YAML configuration file, users can build and test an annotation interface for any framework within minutes — all in one web browser window. To facilitate collaboration and sharing, Thresh provides a community hub that hosts a collection of fine-grained frameworks and corresponding annotations made and collected by the community, covering a wide range of NLP tasks. For deployment, Thresh offers multiple options for any scale of annotation projects from small manual inspections to large crowdsourcing ones. Additionally, we introduce a Python library to streamline the entire process from typology design and deployment to annotation processing. Thresh is publicly accessible at https://thresh.tools.

arxiv情報

著者 David Heineman,Yao Dou,Wei Xu
発行日 2023-10-16 14:51:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク