Sentence-to-Label Generation Framework for Multi-task Learning of Japanese Sentence Classification and Named Entity Recognition

要約

情報抽出 (IE) は、自然言語処理内の重要なサブフィールドです。
この研究では、文分類 (SC) と固有表現認識 (NER) を組み合わせた、文分類と固有表現認識マルチタスク (SCNM) アプローチを紹介します。
私たちは SCNM 用の Sentence-to-Label Generation (SLG) フレームワークを開発し、SC と NER の両方を含む Wikipedia データセットを構築します。
フォーマット コンバータを使用して入力フォーマットを統一し、生成モデルを採用して SC ラベル、NER ラベル、および関連するテキスト セグメントを生成します。
生成されたフォーマットの精度を向上させるために、制約メカニズム (CM) を提案します。
私たちの結果は、スタンドアロンタスクと比較して、SCNM では SC 精度が 1.13 ポイント、NER が 1.06 ポイント向上し、CM によりフォーマット精度が 63.61 から 100 に向上したことを示しています。この結果は、SC と NER 間の相互強化効果を示しており、統合により両方のタスクのパフォーマンスが向上します。

要約(オリジナル)

Information extraction(IE) is a crucial subfield within natural language processing. In this study, we introduce a Sentence Classification and Named Entity Recognition Multi-task (SCNM) approach that combines Sentence Classification (SC) and Named Entity Recognition (NER). We develop a Sentence-to-Label Generation (SLG) framework for SCNM and construct a Wikipedia dataset containing both SC and NER. Using a format converter, we unify input formats and employ a generative model to generate SC-labels, NER-labels, and associated text segments. We propose a Constraint Mechanism (CM) to improve generated format accuracy. Our results show SC accuracy increased by 1.13 points and NER by 1.06 points in SCNM compared to standalone tasks, with CM raising format accuracy from 63.61 to 100. The findings indicate mutual reinforcement effects between SC and NER, and integration enhances both tasks’ performance.

arxiv情報

著者 Chengguang Gan,Qinghao Zhang,Tatsunori Mori
発行日 2023-06-28 07:29:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク