CAW-coref: Conjunction-Aware Word-level Coreference Resolution

要約

最先端の相互参照解決システムは、ドキュメントごとに複数の LLM 呼び出しに依存しているため、多くのユースケース (大規模なコーパスによる情報抽出など) にとって法外に高価です。
主要なワードレベル相互参照システム (WL-coref) は、これらの SOTA システムのパフォーマンスの 96.6% を達成しながら、はるかに効率的です。
この研究では、WL-coref の日常的だが重要な失敗例、つまり、「トムとメアリー」などの結合された言及の処理を特定します。
当社は、OntoNotes テスト セットのパフォーマンスを F1 で 0.9% 向上させ、効率的なワードレベルの共参照解決と高価な SOTA アプローチとの間のギャップを 34.6% 縮小する、シンプルかつ効果的なソリューションを提供します。
Conjunction-Aware Word-level coreference モデル (CAW-coref) とコードは、https://github.com/KarelDO/wl-coref で入手できます。

要約(オリジナル)

State-of-the-art coreference resolutions systems depend on multiple LLM calls per document and are thus prohibitively expensive for many use cases (e.g., information extraction with large corpora). The leading word-level coreference system (WL-coref) attains 96.6% of these SOTA systems’ performance while being much more efficient. In this work, we identify a routine yet important failure case of WL-coref: dealing with conjoined mentions such as ‘Tom and Mary’. We offer a simple yet effective solution that improves the performance on the OntoNotes test set by 0.9% F1, shrinking the gap between efficient word-level coreference resolution and expensive SOTA approaches by 34.6%. Our Conjunction-Aware Word-level coreference model (CAW-coref) and code is available at https://github.com/KarelDO/wl-coref.

arxiv情報

著者 Karel D’Oosterlinck,Semere Kiros Bitew,Brandon Papineau,Christopher Potts,Thomas Demeester,Chris Develder
発行日 2023-10-19 17:31:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク