GPT Assisted Annotation of Rhetorical and Linguistic Features for Interpretable Propaganda Technique Detection in News Text


この研究は、プロパガンダ手法でラベル付けされた既存のデータセットに注釈を付ける目的で、説得言語に関連する文献で特定された 22 の修辞的および言語的特徴を成文化したものです。
人間の専門家がこれらの機能を使用して自然言語文に注釈を付けるのを支援するために、Web アプリケーションである RhetAnn は、多大な精神的労力を最小限に抑えるように特別に設計されました。
最後に、注釈付きデータの小さなセットを使用して GPT-3.5 (生成大規模言語モデル (LLM)) を微調整し、財務コストと分類精度を最適化しながら残りのデータに注釈を付けました。
この研究は、人間が注釈を付けた少数のサンプルと GPT を組み合わせることが、人間の専門家のみに依存する従来のアノテーションのコストの数分の 1 でアノテーション プロセスを拡張するための効果的な戦略となり得ることを示しています。
結果は、この記事の執筆時点で最高のパフォーマンスを誇るモデルである GPT-4 と同等であり、コストは 10 分の 1 です。
私たちの貢献は、機械可読形式の一連の機能、そのプロパティ、定義、例と、RhetAnn および GPT プロンプトのコード、および最先端の解釈可能なプロパガンダ手法の検出を進めるための微調整手順です。


While the use of machine learning for the detection of propaganda techniques in text has garnered considerable attention, most approaches focus on ‘black-box’ solutions with opaque inner workings. Interpretable approaches provide a solution, however, they depend on careful feature engineering and costly expert annotated data. Additionally, language features specific to propagandistic text are generally the focus of rhetoricians or linguists, and there is no data set labeled with such features suitable for machine learning. This study codifies 22 rhetorical and linguistic features identified in literature related to the language of persuasion for the purpose of annotating an existing data set labeled with propaganda techniques. To help human experts annotate natural language sentences with these features, RhetAnn, a web application, was specifically designed to minimize an otherwise considerable mental effort. Finally, a small set of annotated data was used to fine-tune GPT-3.5, a generative large language model (LLM), to annotate the remaining data while optimizing for financial cost and classification accuracy. This study demonstrates how combining a small number of human annotated examples with GPT can be an effective strategy for scaling the annotation process at a fraction of the cost of traditional annotation relying solely on human experts. The results are on par with the best performing model at the time of writing, namely GPT-4, at 10x less the cost. Our contribution is a set of features, their properties, definitions, and examples in a machine-readable format, along with the code for RhetAnn and the GPT prompts and fine-tuning procedures for advancing state-of-the-art interpretable propaganda technique detection.


著者 Kyle Hamilton,Luca Longo,Bojan Bozic
発行日 2024-07-16 15:15:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL パーマリンク