要約
ドキュメントでのイベントとそれらのコアファレンスの言及を認識することは、テキストの意味的な意味を理解するために不可欠です。
イベントのコアレーション解決に関する既存の研究は、ほとんどニュース記事に限定されています。
このホワイトペーパーでは、包括的なイベントおよびイベントコアファレンス情報が注釈が付けられているLegal DomainであるLegalCoreの最初のデータセットを紹介します。
このデータセットで注釈を付けた法的契約書は、ニュース記事の数倍長く、ドキュメントごとに平均長さは約25kトークンです。
注釈は、法的文書には密集したイベントに言及されており、イベントの言及間の短距離と超長距離のコアレファレンスリンクの両方を備えていることを示しています。
さらに、イベント検出とイベントコアレーション解像度の両方の解像度タスクの両方のこのデータセットで主流の大規模言語モデル(LLMS)をベンチマークし、このデータセットが最先端のオープンソースと独自のLLMに大きな課題をもたらし、監視されたベースラインよりも著しく悪いパフォーマンスを発揮することがわかります。
データセットとコードを公開します。
要約(オリジナル)
Recognizing events and their coreferential mentions in a document is essential for understanding semantic meanings of text. The existing research on event coreference resolution is mostly limited to news articles. In this paper, we present the first dataset for the legal domain, LegalCore, which has been annotated with comprehensive event and event coreference information. The legal contract documents we annotated in this dataset are several times longer than news articles, with an average length of around 25k tokens per document. The annotations show that legal documents have dense event mentions and feature both short-distance and super long-distance coreference links between event mentions. We further benchmark mainstream Large Language Models (LLMs) on this dataset for both event detection and event coreference resolution tasks, and find that this dataset poses significant challenges for state-of-the-art open-source and proprietary LLMs, which perform significantly worse than a supervised baseline. We will publish the dataset as well as the code.
arxiv情報
著者 | Kangda Wei,Xi Shi,Jonathan Tong,Sai Ramana Reddy,Anandhavelu Natarajan,Rajiv Jain,Aparna Garimella,Ruihong Huang |
発行日 | 2025-03-20 16:45:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google