MultiMUC: Multilingual Template Filling on MUC-4

要約

テンプレート充填のための初の多言語対訳コーパスである MultiMUC を紹介します。これは、古典的な MUC-4 テンプレート充填ベンチマークの 5 つの言語 (アラビア語、中国語、ペルシャ語、韓国語、ロシア語) への翻訳で構成されています。
強力な多言語機械翻訳システムから自動翻訳を取得し、元の英語の注釈を各ターゲット言語に手動で投影します。
すべての言語について、注釈付きのテンプレート引数を含む開発およびテスト分割内の文に対する人間による翻訳も提供します。
最後に、最先端のテンプレート充填モデルと ChatGPT の両方を使用した MultiMUC のベースラインを示します。

要約(オリジナル)

We introduce MultiMUC, the first multilingual parallel corpus for template filling, comprising translations of the classic MUC-4 template filling benchmark into five languages: Arabic, Chinese, Farsi, Korean, and Russian. We obtain automatic translations from a strong multilingual machine translation system and manually project the original English annotations into each target language. For all languages, we also provide human translations for sentences in the dev and test splits that contain annotated template arguments. Finally, we present baselines on MultiMUC both with state-of-the-art template filling models and with ChatGPT.

arxiv情報

著者 William Gantt,Shabnam Behzad,Hannah YoungEun An,Yunmo Chen,Aaron Steven White,Benjamin Van Durme,Mahsa Yarmohammadi
発行日 2024-01-29 15:02:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク