Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution

要約

計算社会科学および Web コンテンツ分析に関連するタスクの多くには、テキストに含まれる主張に基づいてテキストを分類することが含まれます。
最先端のアプローチでは通常、大規模なアノテーション付きデータセットに対するモデルの微調整が必​​要となるため、作成にコストがかかります。
これを考慮して、クレームベースのテキスト分類タスクの共通パラダイムとして、定性的で汎用性の高い少数ショット学習方法論を提案し、リリースします。
この方法論には、クラスをクレームの任意に洗練された分類として定義し、自然言語推論モデルを使用してこれらと対象のコーパスの間のテキスト含意を取得することが含まれます。
これらのモデルのパフォーマンスは、確立された統計的ヒューリスティックである確率的二分法を使用して動的にサンプリングされた、データ ポイントの最小限のサンプルに注釈を付けることで向上します。
この方法論を、気候変動の逆張りの検出、トピック/スタンスの分類、うつ病関連の症状の検出という 3 つのタスクに関連して説明します。
このアプローチは、データ注釈の必要性を大幅に削減しながら、従来の事前トレーニング/微調整アプローチに匹敵します。

要約(オリジナル)

Many tasks related to Computational Social Science and Web Content Analysis involve classifying pieces of text based on the claims they contain. State-of-the-art approaches usually involve fine-tuning models on large annotated datasets, which are costly to produce. In light of this, we propose and release a qualitative and versatile few-shot learning methodology as a common paradigm for any claim-based textual classification task. This methodology involves defining the classes as arbitrarily sophisticated taxonomies of claims, and using Natural Language Inference models to obtain the textual entailment between these and a corpus of interest. The performance of these models is then boosted by annotating a minimal sample of data points, dynamically sampled using the well-established statistical heuristic of Probabilistic Bisection. We illustrate this methodology in the context of three tasks: climate change contrarianism detection, topic/stance classification and depression-relates symptoms detection. This approach rivals traditional pre-train/fine-tune approaches while drastically reducing the need for data annotation.

arxiv情報

著者 Sandrine Chausson,Björn Ross
発行日 2024-05-09 12:03:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク