Codebook LLMs: Adapting Political Science Codebooks for LLM Use and Adapting LLMs to Follow Codebooks

要約

コードブック (構成要素を運用し、注釈手順の概要を説明する文書) は、構造化されていない政治文書をコーディングする際に、社会科学者によってほぼ普遍的に使用されています。
最近、手動による注釈コストを削減するために、政治学者はテキスト データのラベル付けと分析に生成大規模言語モデル (LLM) に注目しました。
ただし、分類に LLM を使用するこれまでの研究は、普遍的なラベルの仮定に暗黙的に依存していました。クラス ラベルまたは最小限の定義と、事前トレーニング中に LLM が帰納的に学習した情報のみを使用して、ドキュメントを正しく分類することが可能です。
対照的に、有効な測定を重視する政治学者は、代わりにコードブック構成ラベルの仮定を行うべきであると主張します。LLM は、コードブックで提供される構成構成/ラベルの定義と除外基準に従う必要があります。
この研究では、3 つの政治科学データセットとその元のコードブックを収集して厳選し、LLM がコードブックの命令に準拠しているかどうか、コードブックを書き換えることでパフォーマンスが向上するかどうか、コードブックとドキュメントとラベルのタプルで LLM を命令チューニングするかどうかを理解するための一連の実験を実施します。
ゼロショット分類よりもパフォーマンスが向上します。
LLM として Mistral 7B 命令を使用すると、元のコードブックを再構築するとゼロショット パフォーマンスが若干向上しますが、モデルがコードブックの制約に準拠するのに依然として苦労していることがわかります。
楽観的に考えれば、データセットの 1 つで命令チューニング Mistral を実行すると、ゼロショット推論よりも大幅な向上が得られます (0.76 対 0.53 マイクロ F1)。
私たちは、コードブック固有のタスク、仮定、命令チューニング パイプラインの概念化と、半構造化 LLM コードブック形式が、政治学者が LLM 時代に容易に適応できるよう支援することを願っています。

要約(オリジナル)

Codebooks — documents that operationalize constructs and outline annotation procedures — are used almost universally by social scientists when coding unstructured political texts. Recently, to reduce manual annotation costs, political scientists have looked to generative large language models (LLMs) to label and analyze text data. However, previous work using LLMs for classification has implicitly relied on the universal label assumption — correct classification of documents is possible using only a class label or minimal definition and the information that the LLM inductively learns during its pre-training. In contrast, we argue that political scientists who care about valid measurement should instead make a codebook-construct label assumption — an LLM should follow the definition and exclusion criteria of a construct/label provided in a codebook. In this work, we collect and curate three political science datasets and their original codebooks and conduct a set of experiments to understand whether LLMs comply with codebook instructions, whether rewriting codebooks improves performance, and whether instruction-tuning LLMs on codebook-document-label tuples improves performance over zero-shot classification. Using Mistral 7B Instruct as our LLM, we find re-structuring the original codebooks gives modest gains in zero-shot performance but the model still struggles to comply with the constraints of the codebooks. Optimistically, instruction-tuning Mistral on one of our datasets gives significant gains over zero-shot inference (0.76 versus 0.53 micro F1). We hope our conceptualization of the codebook-specific task, assumptions, and instruction-tuning pipeline as well our semi-structured LLM codebook format will help political scientists readily adapt to the LLM era.

arxiv情報

著者 Andrew Halterman,Katherine A. Keith
発行日 2024-07-15 14:20:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク