要約
スパン識別は、テキスト入力から特定のテキスト スパンを識別し、それらを事前定義されたカテゴリに分類することを目的としています。
単純に従属 (SUB) 関係 (つまり、スパンが特定のカテゴリのインスタンスであるかどうか) を利用してモデルをトレーニングする以前の研究とは異なり、この論文では初めてピア (PR) 関係を調査します。
同じカテゴリのインスタンスであり、同様の機能を共有します。
具体的には、トレーニング用の拡張データとして PR 関係を持つスパン ペアを使用する、新しいピア データ拡張 (PeerDA) アプローチが提案されています。
PeerDA には 2 つの独自の利点があります。 (1) トレーニング データを増強するための PR スパン ペアが多数あります。
(2) 拡張データは、スパン セマンティクスを利用するようにモデルをプッシュすることで、トレーニングされたモデルが表面的なスパン カテゴリ マッピングに過剰適合するのを防ぐことができます。
7 つのドメインにわたる 4 つの多様なタスクにわたる 10 のデータセットに関する実験結果は、PeerDA の有効性を示しています。
特に、PeerDA は、そのうち 6 つで最先端の結果を達成しています。
要約(オリジナル)
Span identification aims at identifying specific text spans from text input and classifying them into pre-defined categories. Different from previous works that merely leverage the Subordinate (SUB) relation (i.e. if a span is an instance of a certain category) to train models, this paper for the first time explores the Peer (PR) relation, which indicates that two spans are instances of the same category and share similar features. Specifically, a novel Peer Data Augmentation (PeerDA) approach is proposed which employs span pairs with the PR relation as the augmentation data for training. PeerDA has two unique advantages: (1) There are a large number of PR span pairs for augmenting the training data. (2) The augmented data can prevent the trained model from over-fitting the superficial span-category mapping by pushing the model to leverage the span semantics. Experimental results on ten datasets over four diverse tasks across seven domains demonstrate the effectiveness of PeerDA. Notably, PeerDA achieves state-of-the-art results on six of them.
arxiv情報
著者 | Weiwen Xu,Xin Li,Yang Deng,Wai Lam,Lidong Bing |
発行日 | 2023-05-18 12:11:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google