Synthetically generated text for supervised text analysis


教師ありテキスト モデルは、政治学者にとって貴重なツールですが、その使用にはいくつかの障害があります。たとえば、文書に手作業でラベルを付ける費用、注釈用にまれな関連文書を取得することの難しさ、注釈付き文書の共有に伴う著作権とプライバシーの問題などです。
この記事では、大規模な言語モデルを使用した合成テキストの制御された生成という形で、これら 3 つの問題に対する部分的な解決策を提案します。
合成テキストの有用性を 3 つのアプリケーションで実証します。ウクライナでの戦闘を説明する合成ツイートの生成、イベント検出システムをトレーニングするための特定の政治イベントを説明する合成ニュース記事、および文レベルのポピュリズム分類器をトレーニングするためのポピュリスト マニフェスト ステートメントの多言語コーパスです。


Supervised text models are a valuable tool for political scientists but present several obstacles to their use, including the expense of hand-labeling documents, the difficulty of retrieving rare relevant documents for annotation, and copyright and privacy concerns involved in sharing annotated documents. This article proposes a partial solution to these three issues, in the form of controlled generation of synthetic text with large language models. I provide a conceptual overview of text generation, guidance on when researchers should prefer different techniques for generating synthetic text, a discussion of ethics, and a simple technique for improving the quality of synthetic text. I demonstrate the usefulness of synthetic text with three applications: generating synthetic tweets describing the fighting in Ukraine, synthetic news articles describing specified political events for training an event detection system, and a multilingual corpus of populist manifesto statements for training a sentence-level populism classifier.


著者 Andrew Halterman
発行日 2023-03-28 14:55:13+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CL パーマリンク