Multi-CrossRE A Multi-Lingual Multi-Domain Dataset for Relation Extraction


関係抽出 (RE) のほとんどの研究には英語が関係していますが、これは主に多言語リソースが不足しているためです。
私たちは、英語に加えて 26 の言語を含み、6 つのテキスト ドメインをカバーする、RE 用の最も広範な多言語データセットである Multi-CrossRE を提案します。
Multi-CrossRE は CrossRE (Bassignana and Plank、2022) の機械翻訳版であり、サブ部分には 7 つの多様な言語でネイティブ スピーカーによってチェックされた 200 以上の文が含まれています。
26 の新しいデータセットに対してベースライン モデルを実行し、健全性チェックとして 26 の英語への逆翻訳に対してベースライン モデルを実行します。
逆翻訳されたデータの結果は、元の英語の CrossRE の結果と一致しており、翻訳とその結果得られるデータセットの品質が高いことを示しています。


Most research in Relation Extraction (RE) involves the English language, mainly due to the lack of multi-lingual resources. We propose Multi-CrossRE, the broadest multi-lingual dataset for RE, including 26 languages in addition to English, and covering six text domains. Multi-CrossRE is a machine translated version of CrossRE (Bassignana and Plank, 2022), with a sub-portion including more than 200 sentences in seven diverse languages checked by native speakers. We run a baseline model over the 26 new datasets and–as sanity check–over the 26 back-translations to English. Results on the back-translated data are consistent with the ones on the original English CrossRE, indicating high quality of the translation and the resulting dataset.


著者 Elisa Bassignana,Filip Ginter,Sampo Pyysalo,Rob van der Goot,Barbara Plank
発行日 2023-05-18 14:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク