Synthetically generated text for supervised text analysis

要約

教師ありテキスト モデルは、政治学者にとって貴重なツールですが、その使用にはいくつかの障害があります。たとえば、文書に手作業でラベルを付ける費用、注釈用にまれな関連文書を取得することの難しさ、注釈付き文書の共有に伴う著作権とプライバシーの問題などです。
この記事では、大規模な言語モデルを使用した合成テキストの制御された生成という形で、これら 3 つの問題に対する部分的な解決策を提案します。
テキスト生成の概念的な概要、合成テキストを生成するためのさまざまな手法を研究者が好む場合のガイダンス、倫理の議論、および合成テキストの品質を向上させるための簡単な手法を提供します。
合成テキストの有用性を 3 つのアプリケーションで実証します。ウクライナでの戦闘を説明する合成ツイートの生成、イベント検出システムをトレーニングするための特定の政治イベントを説明する合成ニュース記事、および文レベルのポピュリズム分類器をトレーニングするためのポピュリスト マニフェスト ステートメントの多言語コーパスです。
.

要約(オリジナル)

Supervised text models are a valuable tool for political scientists but present several obstacles to their use, including the expense of hand-labeling documents, the difficulty of retrieving rare relevant documents for annotation, and copyright and privacy concerns involved in sharing annotated documents. This article proposes a partial solution to these three issues, in the form of controlled generation of synthetic text with large language models. I provide a conceptual overview of text generation, guidance on when researchers should prefer different techniques for generating synthetic text, a discussion of ethics, and a simple technique for improving the quality of synthetic text. I demonstrate the usefulness of synthetic text with three applications: generating synthetic tweets describing the fighting in Ukraine, synthetic news articles describing specified political events for training an event detection system, and a multilingual corpus of populist manifesto statements for training a sentence-level populism classifier.

arxiv情報

著者 Andrew Halterman
発行日 2023-03-28 14:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク