Like a Good Nearest Neighbor: Practical Content Moderation and Text Classification

要約

フューショット テキスト分類システムは優れた機能を備えていますが、プロンプトと 10 億パラメータの言語モデルに依存しているため、確実に導入して使用するのは現実的ではありません。
SetFit (Tunstall et al., 2022) は、対照的な学習パラダイムの下で文章変換器を微調整し、より扱いにくいシステムと同様の結果を達成する、最近の実用的なアプローチです。
安価なテキスト分類は、すべての分類タスクにおけるドメイン ドリフトの問題に対処する上で、特にソーシャル メディア プラットフォームを悩ませる有害なコンテンツを検出する上で重要です。
ここでは、SetFit への修正である Like a Good Nearest Neighbor (LaGoNN) を提案します。これは、学習可能なパラメータを導入せず、トレーニング データ内のラベルやテキストなどの最近傍からの情報を使用して入力テキストを変更し、新しいデータを表示します。
モデルが最適化されたインスタンスに似ています。
LaGoNN は、望ましくないコンテンツとテキスト分類にフラグを立てるのに効果的で、SetFit のパフォーマンスを向上させます。
LaGoNN の価値を実証するために、4 つのラベル分布および一般および多言語分類設定に基づくコンテンツ管理のコンテキストで、テキスト分類システムの徹底的な調査を実施します。

要約(オリジナル)

Few-shot text classification systems have impressive capabilities but are infeasible to deploy and use reliably due to their dependence on prompting and billion-parameter language models. SetFit (Tunstall et al., 2022) is a recent, practical approach that fine-tunes a Sentence Transformer under a contrastive learning paradigm and achieves similar results to more unwieldy systems. Inexpensive text classification is important for addressing the problem of domain drift in all classification tasks, and especially in detecting harmful content, which plagues social media platforms. Here, we propose Like a Good Nearest Neighbor (LaGoNN), a modification to SetFit that introduces no learnable parameters but alters input text with information from its nearest neighbor, for example, the label and text, in the training data, making novel data appear similar to an instance on which the model was optimized. LaGoNN is effective at flagging undesirable content and text classification, and improves the performance of SetFit. To demonstrate the value of LaGoNN, we conduct a thorough study of text classification systems in the context of content moderation under four label distributions, and in general and multilingual classification settings.

arxiv情報

著者 Luke Bates,Iryna Gurevych
発行日 2024-01-29 12:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク