MEGClass: Extremely Weakly Supervised Text Classification via Mutually-Enhancing Text Granularities

要約

テキストの分類は、非構造化テキストを整理するために不可欠です。
従来の方法は、人による注釈、または最近では監視のための一連のクラス シード ワードに依存していますが、これは、特に特殊なドメインや新興ドメインの場合、コストがかかる可能性があります。
これに対処するために、クラス表面名のみを非常に弱い監視として使用することが提案されています。
しかし、既存のアプローチは、異なるレベルのテキスト粒度 (文書、文章、または単語) を独立して扱い、粒度クラス間の不一致や、共同抽出によってのみ識別できるコンテキストを無視します。
これらの問題に取り組むために、相互強化テキスト粒度を活用する、非常に弱い教師付きテキスト分類手法である MEGClass を導入します。
MEGClass は、ドキュメントの最もクラスを示す単語と文を共同で考慮することによって得られる、粗い粒度および細かい粒度のコンテキスト信号を利用します。
このアプローチにより、最も識別的なクラス指標を捕捉する文脈化された文書表現の学習が可能になります。
潜在的なクラスの異質性を維持することにより、MEGClass は、反復フィードバックとして最も有益なクラスを示すドキュメントを選択し、最初の単語ベースのクラス表現を強化し、最終的に事前トレーニングされたテキスト分類器を微調整することができます。
7 つのベンチマーク データセットに対する広範な実験により、MEGClass が他の弱い教師付き手法および非常に弱い教師付き手法よりも優れたパフォーマンスを発揮することが実証されました。

要約(オリジナル)

Text classification is essential for organizing unstructured text. Traditional methods rely on human annotations or, more recently, a set of class seed words for supervision, which can be costly, particularly for specialized or emerging domains. To address this, using class surface names alone as extremely weak supervision has been proposed. However, existing approaches treat different levels of text granularity (documents, sentences, or words) independently, disregarding inter-granularity class disagreements and the context identifiable exclusively through joint extraction. In order to tackle these issues, we introduce MEGClass, an extremely weakly-supervised text classification method that leverages Mutually-Enhancing Text Granularities. MEGClass utilizes coarse- and fine-grained context signals obtained by jointly considering a document’s most class-indicative words and sentences. This approach enables the learning of a contextualized document representation that captures the most discriminative class indicators. By preserving the heterogeneity of potential classes, MEGClass can select the most informative class-indicative documents as iterative feedback to enhance the initial word-based class representations and ultimately fine-tune a pre-trained text classifier. Extensive experiments on seven benchmark datasets demonstrate that MEGClass outperforms other weakly and extremely weakly supervised methods.

arxiv情報

著者 Priyanka Kargupta,Tanay Komarlu,Susik Yoon,Xuan Wang,Jiawei Han
発行日 2023-10-29 21:03:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク