GENTLE: A Genre-Diverse Multilayer Challenge Set for English NLP and Linguistic Evaluation

要約

私たちは、合計 17,000 トークンに達し、辞書項目、e スポーツの解説、法的文書、医療メモ、詩、数学的証明、シラバス、脅威など、ドメイン外評価用の 8 つの珍しいテキスト タイプで構成される新しいジャンル混合英語チャレンジ コーパスを紹介します。
文字。
GENTLE には、構文依存関係の解析、エンティティ認識、共参照解決、談話解析などのさまざまな一般的な NLP タスクに対して手動でアノテーションが付けられます。
GENTLE で最先端の NLP システムを評価したところ、少なくとも一部のジャンルですべてのタスクのパフォーマンスが大幅に低下していることがわかり、NLP システムの評価データセットとしての GENTLE の有用性が示されました。

要約(オリジナル)

We present GENTLE, a new mixed-genre English challenge corpus totaling 17K tokens and consisting of 8 unusual text types for out-of domain evaluation: dictionary entries, esports commentaries, legal documents, medical notes, poetry, mathematical proofs, syllabuses, and threat letters. GENTLE is manually annotated for a variety of popular NLP tasks, including syntactic dependency parsing, entity recognition, coreference resolution, and discourse parsing. We evaluate state-of-the-art NLP systems on GENTLE and find severe degradation for at least some genres in their performance on all tasks, which indicates GENTLE’s utility as an evaluation dataset for NLP systems.

arxiv情報

著者 Tatsuya Aoyama,Shabnam Behzad,Luke Gessler,Lauren Levine,Jessica Lin,Yang Janet Liu,Siyao Peng,Yilun Zhu,Amir Zeldes
発行日 2023-09-22 03:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク