ABEX: Data Augmentation for Low-Resource NLU via Expanding Abstract Descriptions

要約

低リソースの自然言語理解 (NLU) タスクのための、新しく効果的な生成データ拡張手法である ABEX を紹介します。
ABEX は、入力ドキュメントのさまざまな形式を生成するための新しいパラダイムである ABstract-and-EXpand に基づいています。最初にドキュメントを簡潔で抽象的な記述に変換し、次に、結果として得られる抽象概念の拡張に基づいて新しいドキュメントを生成します。
抽象的な説明を拡張するタスクを学習するために、最初に抽象とドキュメントのペアを含む大規模な合成データセットで BART をトレーニングします。
次に、文書の抽象的な説明を生成するために、AMR グラフの編集に基づいた、シンプルで制御可能でトレーニング不要の方法を提案します。
ABEX は両方の長所をもたらします。抽象表現から拡張することにより、スタイルや意味などのドキュメントの元の意味論的プロパティが保存され、それによって元のラベルとデータ分散との整合性が維持されます。
同時に、抽象的な説明を詳しく説明する基本的なプロセスは、多様な世代を促進します。
12 のデータセットと 4 つの低リソース設定にわたる 4 つの NLU タスクに対する ABEX の有効性を実証します。
ABEX はすべてのベースラインを定性的に上回っており、0.04% ~ 38.8% の改善が見られます。
定性的には、ABEX はコンテキストと長さの多様性の点で、文献に記載されているすべての従来の方法よりも優れています。

要約(オリジナル)

We present ABEX, a novel and effective generative data augmentation methodology for low-resource Natural Language Understanding (NLU) tasks. ABEX is based on ABstract-and-EXpand, a novel paradigm for generating diverse forms of an input document — we first convert a document into its concise, abstract description and then generate new documents based on expanding the resultant abstraction. To learn the task of expanding abstract descriptions, we first train BART on a large-scale synthetic dataset with abstract-document pairs. Next, to generate abstract descriptions for a document, we propose a simple, controllable, and training-free method based on editing AMR graphs. ABEX brings the best of both worlds: by expanding from abstract representations, it preserves the original semantic properties of the documents, like style and meaning, thereby maintaining alignment with the original label and data distribution. At the same time, the fundamental process of elaborating on abstract descriptions facilitates diverse generations. We demonstrate the effectiveness of ABEX on 4 NLU tasks spanning 12 datasets and 4 low-resource settings. ABEX outperforms all our baselines qualitatively with improvements of 0.04% – 38.8%. Qualitatively, ABEX outperforms all prior methods from literature in terms of context and length diversity.

arxiv情報

著者 Sreyan Ghosh,Utkarsh Tyagi,Sonal Kumar,C. K. Evuru,S Ramaneswaran,S Sakshi,Dinesh Manocha
発行日 2024-06-06 17:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク