Building a Japanese Document-Level Relation Extraction Dataset Assisted by Cross-Lingual Transfer

要約

文書レベルの関係抽出 (DocRE) は、文書からすべての意味関係を抽出するタスクです。
英語の DocRE に関する研究は行われていますが、英語以外の言語の DocRE には限定的な注目が集まっています。
この研究では、日本語を代表例として、非英語言語での DocRE 研究を促進するために既存の英語リソースを効果的に活用することを掘り下げています。
最初の試みとして、英語のデータセットを日本語に変換してデータセットを構築します。
ただし、そのようなデータセットでトレーニングされたモデルは再現率が低いという問題があります。
私たちはエラーのケースを調査し、英語から翻訳された文書とネイティブスピーカーによって書かれた文書の表面構造と意味論の違いが失敗の原因であると考えます。
そこで、転送されたデータセットが日本語文書への人による注釈を支援できるかどうかを調査することに切り替えます。
私たちの提案では、アノテーターは、転送されたデータセットでトレーニングされたモデルから関係予測を編集します。
定量的分析の結果、モデルによって提案された関係の推奨事項により、以前のアプローチと比較して人による編集ステップが約 50% 削減されることがわかりました。
実験では、収集したデータセットに対する既存の DocRE モデルのパフォーマンスを定量化し、日本語および多言語 DocRE の課題を明らかにします。

要約(オリジナル)

Document-level Relation Extraction (DocRE) is the task of extracting all semantic relationships from a document. While studies have been conducted on English DocRE, limited attention has been given to DocRE in non-English languages. This work delves into effectively utilizing existing English resources to promote DocRE studies in non-English languages, with Japanese as the representative case. As an initial attempt, we construct a dataset by transferring an English dataset to Japanese. However, models trained on such a dataset suffer from low recalls. We investigate the error cases and attribute the failure to different surface structures and semantics of documents translated from English and those written by native speakers. We thus switch to explore if the transferred dataset can assist human annotation on Japanese documents. In our proposal, annotators edit relation predictions from a model trained on the transferred dataset. Quantitative analysis shows that relation recommendations suggested by the model help reduce approximately 50% of the human edit steps compared with the previous approach. Experiments quantify the performance of existing DocRE models on our collected dataset, portraying the challenges of Japanese and cross-lingual DocRE.

arxiv情報

著者 Youmi Ma,An Wang,Naoaki Okazaki
発行日 2024-04-25 10:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク