Codebook LLMs: Evaluating LLMs as Measurement Tools for Political Science Concepts

要約

コードブック (概念を運用し、注釈手順の概要を説明する文書) は、政治文書をコーディングする際に社会科学者によってほぼ普遍的に使用されています。
これらのテキストを自動的にコーディングするために、研究者は生成大規模言語モデル (LLM) に注目するようになっています。
ただし、「既製」LLM が現実世界のコードブックの運用に忠実に従い、複雑な政治構造を十分な精度で測定できるかどうかについての経験的証拠は限られています。
これに対処するために、私たちは、抗議活動、政治的暴力、マニフェストを網羅する 3 つの現実世界の政治学のコードブックを、その非構造化テキストと人間のラベルとともに収集し、厳選しました。
また、コードブック LLM 測定の 5 段階のフレームワークも提案します。人間と LLM の両方用のコードブックの準備、コードブック上での LLM の基本機能のテスト、ゼロショット測定精度 (つまり、既製のパフォーマンス) の評価、エラーの分析です。
、さらに (パラメータ効率の高い) LLM の教師付きトレーニング。
3 つのコードブック データセットといくつかの事前トレーニングされた 70 ~ 120 億のオープンウェイト LLM を使用して、このフレームワークの実証的なデモンストレーションを提供します。
現在のオープンウェイト LLM にはコードブックのゼロショットに従う際に制限がありますが、教師あり命令のチューニングによりパフォーマンスが大幅に向上する可能性があることがわかりました。
私たちの貢献は、「最良の」LLM を提案するというよりも、コードブック データセット、評価フレームワーク、および独自のコードブック LLM 測定プロジェクトを実装したい応用研究者向けのガイダンスにあります。

要約(オリジナル)

Codebooks — documents that operationalize concepts and outline annotation procedures — are used almost universally by social scientists when coding political texts. To code these texts automatically, researchers are increasing turning to generative large language models (LLMs). However, there is limited empirical evidence on whether ‘off-the-shelf’ LLMs faithfully follow real-world codebook operationalizations and measure complex political constructs with sufficient accuracy. To address this, we gather and curate three real-world political science codebooks — covering protest events, political violence and manifestos — along with their unstructured texts and human labels. We also propose a five-stage framework for codebook-LLM measurement: preparing a codebook for both humans and LLMs, testing LLMs’ basic capabilities on a codebook, evaluating zero-shot measurement accuracy (i.e. off-the-shelf performance), analyzing errors, and further (parameter-efficient) supervised training of LLMs. We provide an empirical demonstration of this framework using our three codebook datasets and several pretrained 7-12 billion open-weight LLMs. We find current open-weight LLMs have limitations in following codebooks zero-shot, but that supervised instruction tuning can substantially improve performance. Rather than suggesting the ‘best’ LLM, our contribution lies in our codebook datasets, evaluation framework, and guidance for applied researchers who wish to implement their own codebook-LLM measurement projects.

arxiv情報

著者 Andrew Halterman,Katherine A. Keith
発行日 2025-01-09 14:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク