Mutual Reinforcement Effects in Japanese Sentence Classification and Named Entity Recognition Tasks

要約

情報抽出 (IE) は、自然言語処理内の重要なサブフィールドです。
ただし、文の分類と固有表現認識に対する従来のセグメント化されたアプローチでは、これらの個々のサブタスク間の複雑な相互作用はほとんど調査されていないままです。
この研究では、これら 2 つの情報抽出サブタスク内の相互強化効果を明らかにし、理解することを目的として、固有表現認識による文分類を収束させる統合分析を提案します。
これを達成するために、文分類 (SC) と固有表現認識 (NER) を組み合わせた文分類および固有表現認識マルチタスク (SCNM) アプローチを導入します。
私たちは SCNM 用の Sentence-to-Label Generation (SLG) フレームワークを開発し、SC と NER の両方を含む Wikipedia データセットを構築します。
フォーマット コンバータを使用して入力フォーマットを統一し、生成モデルを採用して SC ラベル、NER ラベル、および関連するテキスト セグメントを生成します。
生成されたフォーマットの精度を向上させるために、制約メカニズム (CM) を提案します。
私たちの結果は、スタンドアロンタスクと比較して、SCNM では SC 精度が 1.13 ポイント、NER が 1.06 ポイント向上し、CM によりフォーマット精度が 63.61 から 100 に向上したことを示しています。この結果は、SC と NER 間の相互強化効果を示しており、統合により両方のタスクのパフォーマンスが向上します。
さらに、単一の SC タスクに SLG フレームワークを実装しました。
2 つの異なる日本の SC データセットのベースラインと比較して、優れた精度が得られました。
特に、少数ショット学習の実験では、SLG フレームワークは微調整方法よりもはるかに優れたパフォーマンスを示しています。
これらの経験的発見は、SLG フレームワークの有効性を確認する追加の証拠に貢献します。

要約(オリジナル)

Information extraction(IE) is a crucial subfield within natural language processing. However, for the traditionally segmented approach to sentence classification and Named Entity Recognition, the intricate interactions between these individual subtasks remain largely uninvestigated. In this study, we propose an integrative analysis, converging sentence classification with Named Entity Recognition, with the objective to unveil and comprehend the mutual reinforcement effect within these two information extraction subtasks. To achieve this, we introduce a Sentence Classification and Named Entity Recognition Multi-task (SCNM) approach that combines Sentence Classification (SC) and Named Entity Recognition (NER). We develop a Sentence-to-Label Generation (SLG) framework for SCNM and construct a Wikipedia dataset containing both SC and NER. Using a format converter, we unify input formats and employ a generative model to generate SC-labels, NER-labels, and associated text segments. We propose a Constraint Mechanism (CM) to improve generated format accuracy. Our results show SC accuracy increased by 1.13 points and NER by 1.06 points in SCNM compared to standalone tasks, with CM raising format accuracy from 63.61 to 100. The findings indicate mutual reinforcement effects between SC and NER, and integration enhances both tasks’ performance. We additionally implemented the SLG framework on single SC task. It yielded superior accuracies compared to the baseline on two distinct Japanese SC datasets. Notably, in the experiment of few-shot learning, SLG framework shows much better performance than fine-tune method. These empirical findings contribute additional evidence to affirm the efficacy of the SLG framework.

arxiv情報

著者 Chengguang Gan,Qinghao Zhang,Tatsunori Mori
発行日 2023-07-21 02:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク