Guided Distant Supervision for Multilingual Relation Extraction Data: Adapting to a New Language

要約

関係抽出は、デジタル人文科学および関連主題の文脈で伝記情報を抽出して理解するために不可欠です。
関係性を抽出するために機械学習モデルをトレーニングできるデータセットを構築することに対するコミュニティの関心が高まっています。
ただし、このようなデータセットに注釈を付けるには、英語に限定されるだけでなく、費用と時間がかかる可能性があります。
この論文では、ガイド付き遠隔監視を適用して、ドイツ人に関する大規模な伝記関係抽出データセットを作成します。
私たちのデータセットは、9 つ​​の関係タイプの 80,000 を超えるインスタンスで構成されており、ドイツ人に関する最大の伝記関係抽出データセットです。
また、モデルを評価するために 2000 個のインスタンスを含む手動でアノテーション付きのデータセットを作成し、誘導付き遠隔監視を使用してコンパイルされたデータセットと一緒にリリースします。
自動的に作成されたデータセット上でいくつかの最先端の機械学習モデルをトレーニングし、それらもリリースします。
さらに、多くの低リソース言語に利益をもたらす可能性のある多言語およびクロス言語の実験も行っています。

要約(オリジナル)

Relation extraction is essential for extracting and understanding biographical information in the context of digital humanities and related subjects. There is a growing interest in the community to build datasets capable of training machine learning models to extract relationships. However, annotating such datasets can be expensive and time-consuming, in addition to being limited to English. This paper applies guided distant supervision to create a large biographical relationship extraction dataset for German. Our dataset, composed of more than 80,000 instances for nine relationship types, is the largest biographical German relationship extraction dataset. We also create a manually annotated dataset with 2000 instances to evaluate the models and release it together with the dataset compiled using guided distant supervision. We train several state-of-the-art machine learning models on the automatically created dataset and release them as well. Furthermore, we experiment with multilingual and cross-lingual experiments that could benefit many low-resource languages.

arxiv情報

著者 Alistair Plum,Tharindu Ranasinghe,Christoph Purschke
発行日 2024-03-27 15:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク