ÚFAL CorPipe at CRAC 2023: Larger Context Improves Multilingual Coreference Resolution

要約

多言語相互参照解決に関する CRAC 2023 共有タスクの受賞作品である CorPipe を紹介します。
私たちのシステムは、以前の多言語相互参照パイプラインの改良版であり、他の参加者を 4.5% ポイントという大差で上回っています。
CorPipe は、まずメンション検出を実行し、続いて、取得したスパンに対して前件最大化アプローチを介して共参照リンクを実行します。
どちらのタスクも、共有の事前トレーニング済み言語モデルを使用して、利用可能なすべてのコーパスで共同トレーニングされます。
主な改善点は、512 サブワードを超える入力と、アンサンブルをサポートするためのメンション デコードの変更です。
ソース コードは https://github.com/ufal/crac2023-corpipe で入手できます。

要約(オリジナル)

We present CorPipe, the winning entry to the CRAC 2023 Shared Task on Multilingual Coreference Resolution. Our system is an improved version of our earlier multilingual coreference pipeline, and it surpasses other participants by a large margin of 4.5 percent points. CorPipe first performs mention detection, followed by coreference linking via an antecedent-maximization approach on the retrieved spans. Both tasks are trained jointly on all available corpora using a shared pretrained language model. Our main improvements comprise inputs larger than 512 subwords and changing the mention decoding to support ensembling. The source code is available at https://github.com/ufal/crac2023-corpipe.

arxiv情報

著者 Milan Straka
発行日 2023-12-08 02:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク