CELDA: Leveraging Black-box Language Model as Enhanced Classifier without Labels

要約

多くの最先端の LM が API を通じてリリースされ、大規模な規模を誇るため、内部アクセスなしで言語モデル (LM) を利用することは、NLP の分野において魅力的なパラダイムになりつつあります。
このタイプのブラックボックス シナリオにおける事実上の方法はプロンプトとして知られており、データ ラベルが不足している、または使用できない状況でのパフォーマンスの漸進的な向上が示されています。
それらの有効性にもかかわらず、それらは完全に監視された対応物と比較すると依然として不十分であり、一般的にわずかな変更が加えられてもろいものです。
この論文では、非常に弱い監視信号 (つまり、ラベルの名前) を使用してテキスト分類の精度を向上させる新しいアプローチである、クラスタリング強化線形判別分析を提案します。
私たちのフレームワークは、LM モデルやデータ ラベルの重みや勾配にアクセスせずに、正確な決定境界を描画します。
CELDA の中核となるアイデアは 2 つです。(1) ラベルのないデータセットから洗練された擬似ラベル付きデータセットを抽出すること、および (2) 抽出されたノイズの多いデータセットから正確な決定境界を学習する LM 上で軽量で堅牢なモデルをトレーニングすること

さまざまなデータセットの詳細な調査を通じて、CELDA が弱い教師付きテキスト分類において新しい最先端の技術に到達し、完全教師付きモデルとの差を縮めることを実証しました。
さらに、私たちが提案する方法論はあらゆる LM に普遍的に適用でき、より大きなモデルに拡張できる可能性があるため、大規模な LM を利用するためのより現実的な選択肢になります。

要約(オリジナル)

Utilizing language models (LMs) without internal access is becoming an attractive paradigm in the field of NLP as many cutting-edge LMs are released through APIs and boast a massive scale. The de-facto method in this type of black-box scenario is known as prompting, which has shown progressive performance enhancements in situations where data labels are scarce or unavailable. Despite their efficacy, they still fall short in comparison to fully supervised counterparts and are generally brittle to slight modifications. In this paper, we propose Clustering-enhanced Linear Discriminative Analysis, a novel approach that improves the text classification accuracy with a very weak-supervision signal (i.e., name of the labels). Our framework draws a precise decision boundary without accessing weights or gradients of the LM model or data labels. The core ideas of CELDA are twofold: (1) extracting a refined pseudo-labeled dataset from an unlabeled dataset, and (2) training a lightweight and robust model on the top of LM, which learns an accurate decision boundary from an extracted noisy dataset. Throughout in-depth investigations on various datasets, we demonstrated that CELDA reaches new state-of-the-art in weakly-supervised text classification and narrows the gap with a fully-supervised model. Additionally, our proposed methodology can be applied universally to any LM and has the potential to scale to larger models, making it a more viable option for utilizing large LMs.

arxiv情報

著者 Hyunsoo Cho,Youna Kim,Sang-goo Lee
発行日 2023-06-09 05:16:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク