Towards Human-Level Text Coding with LLMs: The Case of Fatherhood Roles in Public Policy Documents

要約

GPT-3.5 や GPT-4 などの大規模言語モデル (LLM) の最近の進歩により、より良い結果と少ないプログラミングによる自動化が約束され、政治学におけるテキスト分析の新たな機会が開かれています。
この研究では、英語以外の言語、法律および政治用語、抽象的な構成に基づく複雑なラベルという、政治科学の現場で遭遇する典型的な複雑さを伴う 3 つの独自のコーディング タスクで LLM を評価します。
この文書に沿って、モデルとプロンプトの選択を最適化するための実践的なワークフローを提案します。
最良のプロンプト戦略は、人間のコード作成者に提供されるものと同様に、LLM に詳細なコードブックを提供することであることがわかりました。
この設定では、LLM は人間のアノテーターと同等か、場合によってはそれより優れていると同時に、はるかに高速で、かなり安価で、大量のテキストへの拡張がはるかに簡単になります。
また、GPT と一般的なオープンソース LLM の比較も提供し、モデルの選択におけるトレードオフについて説明します。
当社のソフトウェアを使用すると、LLM をアノテーターとして簡単に使用でき、https://github.com/lorelupo/pappa から公開されています。

要約(オリジナル)

Recent advances in large language models (LLMs) like GPT-3.5 and GPT-4 promise automation with better results and less programming, opening up new opportunities for text analysis in political science. In this study, we evaluate LLMs on three original coding tasks involving typical complexities encountered in political science settings: a non-English language, legal and political jargon, and complex labels based on abstract constructs. Along the paper, we propose a practical workflow to optimize the choice of the model and the prompt. We find that the best prompting strategy consists of providing the LLMs with a detailed codebook, as the one provided to human coders. In this setting, an LLM can be as good as or possibly better than a human annotator while being much faster, considerably cheaper, and much easier to scale to large amounts of text. We also provide a comparison of GPT and popular open-source LLMs, discussing the trade-offs in the model’s choice. Our software allows LLMs to be easily used as annotators and is publicly available: https://github.com/lorelupo/pappa.

arxiv情報

著者 Lorenzo Lupo,Oscar Magnusson,Dirk Hovy,Elin Naurin,Lena Wängnerud
発行日 2024-08-28 16:26:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, I.2 パーマリンク