Few-shot learning for automated content analysis: Efficient coding of arguments and claims in the debate on arms deliveries to Ukraine

要約

自然言語処理 (NLP) の分野で開発されたトランスフォーマー ニューラル ネットワークに基づく事前トレーニング済み言語モデル (PLM) は、コミュニケーション科学における自動コンテンツ分析、特に教師ありマシンを介した大規模なデータセット内の複雑な意味カテゴリのコーディングを改善する大きな機会を提供します。
学ぶ。
しかし、これまでのところ、NLP 研究における英語モデルの優位性、必要なコンピューティング リソース、および PLM を微調整するためのトレーニング データの作成に必要な労力という 3 つの特徴が、この手法の応用分野での広範な採用を妨げていました。
この研究では、多言語トランスフォーマー モデルをトランスフォーマーへのアダプター拡張機能と組み合わせて使用​​すること、および少数ショット学習方法を使用することで、これらの課題に対処します。
私たちは、ウクライナへの武器供与に関するドイツのニュース論争における主張や主張とその立場を自動的に検出するために、コミュニケーション科学の現実的な使用例に基づいてアプローチをテストします。
3 つの実験で、(1) このタスクのデータ前処理戦略とモデルのバリアント、(2) さまざまな少数ショット学習法のパフォーマンス、(3) 最適なセットアップがさまざまなトレーニング セット サイズでどの程度うまく機能するかを評価します。
結果の妥当性、信頼性、再現性、再現性。
私たちが提案する変圧器アダプターとパターン活用トレーニングの組み合わせは、完全に微調整する PLM に代わる、パラメーター効率が高く、簡単に共有できる代替手段となることがわかりました。
有効性の点では同等の性能を発揮しますが、全体的にはコミュニケーション研究への応用に優れた特性を提供します。
この結果は、ニアドメイン データセットでのタスクの事前微調整が、特に少数ショット設定で大幅な改善につながることも示しています。
さらに、結果は、特定の著名な個人の視点からデータセットを偏らせることが有用であることを示しています。

要約(オリジナル)

Pre-trained language models (PLM) based on transformer neural networks developed in the field of natural language processing (NLP) offer great opportunities to improve automatic content analysis in communication science, especially for the coding of complex semantic categories in large datasets via supervised machine learning. However, three characteristics so far impeded the widespread adoption of the methods in the applying disciplines: the dominance of English language models in NLP research, the necessary computing resources, and the effort required to produce training data to fine-tune PLMs. In this study, we address these challenges by using a multilingual transformer model in combination with the adapter extension to transformers, and few-shot learning methods. We test our approach on a realistic use case from communication science to automatically detect claims and arguments together with their stance in the German news debate on arms deliveries to Ukraine. In three experiments, we evaluate (1) data preprocessing strategies and model variants for this task, (2) the performance of different few-shot learning methods, and (3) how well the best setup performs on varying training set sizes in terms of validity, reliability, replicability and reproducibility of the results. We find that our proposed combination of transformer adapters with pattern exploiting training provides a parameter-efficient and easily shareable alternative to fully fine-tuning PLMs. It performs on par in terms of validity, while overall, provides better properties for application in communication studies. The results also show that pre-fine-tuning for a task on a near-domain dataset leads to substantial improvement, in particular in the few-shot setting. Further, the results indicate that it is useful to bias the dataset away from the viewpoints of specific prominent individuals.

arxiv情報

著者 Jonas Rieger,Kostiantyn Yanchenko,Mattes Ruckdeschel,Gerret von Nordheim,Katharina Kleinen-von Königslöw,Gregor Wiedemann
発行日 2023-12-28 11:39:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, stat.ML パーマリンク