CorPipe at CRAC 2024: Predicting Zero Mentions from Raw Text

要約

CRAC 2024多言語共参照解決共有タスクの優勝作品であるCorPipe 24を発表する。この共有タスクの3回目の反復では、新たな目的として、ゼロの共参照言及に必要な空のノードも予測することである(一方、空のノードは例年入力で与えられる)。こうすることで、生のテキストに対して共参照解決を行うことができる。我々は2つのモデルバリエーションを評価した:~2段階アプローチ(空ノードは事前に訓練されたエンコーダーモデルを使用して最初に予測され、次に別の事前に訓練されたモデルによって文の単語と一緒に処理される)と1段階アプローチ(1つの事前に訓練されたエンコーダーモデルが空ノード、共参照の言及、共参照リンクを共同で生成する)。どちらの設定でも、CorPipeはそれぞれ3.9%、2.8%ポイントという大きな差で他の参加者を上回った。ソースコードと学習済みモデルは https://github.com/ufal/crac2024-corpipe で入手可能。

要約(オリジナル)

We present CorPipe 24, the winning entry to the CRAC 2024 Shared Task on Multilingual Coreference Resolution. In this third iteration of the shared task, a novel objective is to also predict empty nodes needed for zero coreference mentions (while the empty nodes were given on input in previous years). This way, coreference resolution can be performed on raw text. We evaluate two model variants: a~two-stage approach (where the empty nodes are predicted first using a pretrained encoder model and then processed together with sentence words by another pretrained model) and a single-stage approach (where a single pretrained encoder model generates empty nodes, coreference mentions, and coreference links jointly). In both settings, CorPipe surpasses other participants by a large margin of 3.9 and 2.8 percent points, respectively. The source code and the trained model are available at https://github.com/ufal/crac2024-corpipe .

arxiv情報

著者 Milan Straka
発行日 2024-10-03 17:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク