Multi-label and Multi-target Sampling of Machine Annotation for Computational Stance Detection

要約

手動ラベル付けによるデータ収集は、データ駆動型アプローチに対してドメイン固有のタスクに合わせた監視を提供します。自然言語処理タスクで妥当なパフォーマンスを達成するには、十分に注釈が付けられたリソースの重要な量が必要です。
ただし、手動によるアノテーションは、特にドメインの知識、微妙な意味論的特徴の把握、および推論のステップが必要な場合、時間と予算の点でスケールアップが困難であることがよくあります。
この論文では、計算スタンス検出のための自動ラベル付けにおける大規模言語モデルの活用の有効性を調査します。
私たちは、大規模な言語モデルが人間のアノテーターの代替として強力な可能性を示している一方で、タスク固有の指示に対するその敏感さと固有のバイアスが、機械によるアノテーションに興味深い、しかし独特の課題を引き起こすことを経験的に観察しています。
アノテーションの品質を最適化するために、マルチラベルおよびマルチターゲットのサンプリング戦略を導入します。
ベンチマークスタンス検出コーパスの実験結果は、私たちの方法がパフォーマンスと学習効果を大幅に向上できることを示しています。

要約(オリジナル)

Data collection from manual labeling provides domain-specific and task-aligned supervision for data-driven approaches, and a critical mass of well-annotated resources is required to achieve reasonable performance in natural language processing tasks. However, manual annotations are often challenging to scale up in terms of time and budget, especially when domain knowledge, capturing subtle semantic features, and reasoning steps are needed. In this paper, we investigate the efficacy of leveraging large language models on automated labeling for computational stance detection. We empirically observe that while large language models show strong potential as an alternative to human annotators, their sensitivity to task-specific instructions and their intrinsic biases pose intriguing yet unique challenges in machine annotation. We introduce a multi-label and multi-target sampling strategy to optimize the annotation quality. Experimental results on the benchmark stance detection corpora show that our method can significantly improve performance and learning efficacy.

arxiv情報

著者 Zhengyuan Liu,Hai Leong Chieu,Nancy F. Chen
発行日 2023-11-08 06:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク