How to Use Large Language Models for Text Coding: The Case of Fatherhood Roles in Public Policy Documents

要約

GPT-3 や GPT-4 などの大規模言語モデル (LLM) の最近の進歩により、政治学におけるテキスト分析の新たな機会が開かれました。
これらは、より良い結果と少ないプログラミングによる自動化を約束します。
この研究では、英語以外の政治学テキストの 3 つの独自のコーディング タスクで LLM を評価し、政治学研究におけるテキスト コーディングに LLM を使用するための一般的なワークフローの詳細な説明を提供します。
私たちのユースケースは、テキスト分析の研究に LLM を組み込もうとしている研究者に実践的なガイドを提供します。
詳細なラベル定義とコーディング例が提供されると、LLM は人間のアノテーターと同等かそれ以上の性能を発揮すると同時に、はるかに高速 (最大数百倍)、大幅に安価 (コストが最大 60% 低い) であることがわかりました。
人間によるコーディング)、大量のテキストへの拡張がはるかに簡単です。
全体として、LLM はほとんどのテキスト コーディング プロジェクトに実行可能なオプションを提供します。

要約(オリジナル)

Recent advances in large language models (LLMs) like GPT-3 and GPT-4 have opened up new opportunities for text analysis in political science. They promise automation with better results and less programming. In this study, we evaluate LLMs on three original coding tasks of non-English political science texts, and we provide a detailed description of a general workflow for using LLMs for text coding in political science research. Our use case offers a practical guide for researchers looking to incorporate LLMs into their research on text analysis. We find that, when provided with detailed label definitions and coding examples, an LLM can be as good as or even better than a human annotator while being much faster (up to hundreds of times), considerably cheaper (costing up to 60% less than human coding), and much easier to scale to large amounts of text. Overall, LLMs present a viable option for most text coding projects.

arxiv情報

著者 Lorenzo Lupo,Oscar Magnusson,Dirk Hovy,Elin Naurin,Lena Wängnerud
発行日 2023-11-20 15:34:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, I.2 パーマリンク