MMM: Multilingual Mutual Reinforcement Effect Mix Datasets & Test with Open-domain Information Extraction Large Language Models

要約

相互強化効果 (MRE) は、情報抽出とマルチタスク研究における有望な手段です。
それにもかかわらず、MRE 混合データセットは日本語で独占的に入手できるため、その適用性は制限されており、そのため世界の研究コミュニティによる包括的な調査が制限されています。
この制限に対処するために、英語、日本語、中国語の 21 のサブデータセットを含む多言語 MRE 混合データセット (MMM) を導入します。
この論文では、大規模言語モデル (LLM) を利用したデータセット翻訳の方法も提案します。これは、LLM を利用して元の日本語データセットを翻訳することで、データセット構築に必要な手動アノテーション時間を大幅に削減します。
さらに、オープンドメインの固有表現認識 (NER) および文分類タスクを組み込むことで、データセットを強化しました。
この拡張されたデータセットを利用して、オープンドメイン情報抽出大規模言語モデル (OIELLM) をトレーニングするための統合入出力フレームワークを開発しました。
OIELLM モデルは、新しい MMM データセットを効果的に処理する機能を実証し、パフォーマンスの大幅な向上を示します。

要約(オリジナル)

The Mutual Reinforcement Effect (MRE) represents a promising avenue in information extraction and multitasking research. Nevertheless, its applicability has been constrained due to the exclusive availability of MRE mix datasets in Japanese, thereby limiting comprehensive exploration by the global research community. To address this limitation, we introduce a Multilingual MRE mix dataset (MMM) that encompasses 21 sub-datasets in English, Japanese, and Chinese. In this paper, we also propose a method for dataset translation assisted by Large Language Models (LLMs), which significantly reduces the manual annotation time required for dataset construction by leveraging LLMs to translate the original Japanese datasets. Additionally, we have enriched the dataset by incorporating open-domain Named Entity Recognition (NER) and sentence classification tasks. Utilizing this expanded dataset, we developed a unified input-output framework to train an Open-domain Information Extraction Large Language Model (OIELLM). The OIELLM model demonstrates the capability to effectively process novel MMM datasets, exhibiting significant improvements in performance.

arxiv情報

著者 Chengguang Gan,Qingyu Yin,Xinyang He,Hanjun Wei,Yunhao Liang,Younghun Lim,Shijian Wang,Hexiang Huang,Qinghao Zhang,Shiwen Ni,Tatsunori Mori
発行日 2024-07-15 17:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク