要約
多言語相互参照解決に関する CRAC 2022 共有タスクへの受賞作品について説明します。
私たちのシステムは、まずメンション検出を解決し、次に先行件最大化アプローチを使用して取得されたスパンでの共参照リンクを解決します。両方のタスクは、共有の Transformer 重みを使用して共同で微調整されます。
さまざまな事前トレーニング済みモデルを微調整した結果を報告します。
この貢献の中心は、微調整された多言語モデルです。
私たちは、十分に大きなエンコーダーを備えた 1 つの大規模な多言語モデルを発見し、すべてのデータセット全体のパフォーマンスを向上させました。そのメリットは、過小評価されている言語や類型的に相対的な言語のグループだけに限定されませんでした。
ソース コードは https://github.com/ufal/crac2022-corpipe で入手できます。
要約(オリジナル)
We describe the winning submission to the CRAC 2022 Shared Task on Multilingual Coreference Resolution. Our system first solves mention detection and then coreference linking on the retrieved spans with an antecedent-maximization approach, and both tasks are fine-tuned jointly with shared Transformer weights. We report results of fine-tuning a wide range of pretrained models. The center of this contribution are fine-tuned multilingual models. We found one large multilingual model with sufficiently large encoder to increase performance on all datasets across the board, with the benefit not limited only to the underrepresented languages or groups of typologically relative languages. The source code is available at https://github.com/ufal/crac2022-corpipe.
arxiv情報
著者 | Milan Straka,Jana Straková |
発行日 | 2024-10-16 16:56:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google