要約
大規模言語モデル(LLM)の新しい能力を、どのように実証研究に利用できるのか?また、LLMの限界を考慮しながら、どのようにそれを行うことができるのだろうか。我々はこの問いに答えるために、2つのタイプの実証的タスクを区別する計量的フレームワークを開発した。LLMを予測問題(仮説生成を含む)に用いることは、LLMの学習データセットと研究者のサンプルとの間に「漏れがない」という1つの条件の下で有効である。文書化された訓練データと公開された重みを持つオープンソースのLLMを使用することで、漏れがないことを保証することができる。LLMの出力を推定問題に使用し、何らかの経済概念(テキストまたは被験者から表現されたもの)の測定を自動化するには、研究者が少なくともいくつかの検証データを収集する必要がある:そのようなデータがなければ、LLMの自動化の誤差を評価し、説明することはできない。このようなデータがなければ、LLMの自動化の誤差を評価することも説明することもできない。このようなステップを踏みさえすれば、LLMの出力は、我々が望むようなおなじみの計量経済学的保証を備えた実証的研究に利用することができる。金融と政治経済への2つの応用例を用いて、我々はこれらの要件が厳しいものであることを発見した。これらの要件に違反した場合、LLMの限界は信頼性の低い実証的推定をもたらすことになる。我々の結果は、LLMの実証的な利用に対する興奮が正当なものであることを示唆している。LLMは、研究者が少量の言語データであっても、予測と推定の両方に効果的に利用することを可能にする。
要約(オリジナル)
How can we use the novel capacities of large language models (LLMs) in empirical research? And how can we do so while accounting for their limitations, which are themselves only poorly understood? We develop an econometric framework to answer this question that distinguishes between two types of empirical tasks. Using LLMs for prediction problems (including hypothesis generation) is valid under one condition: no “leakage” between the LLM’s training dataset and the researcher’s sample. No leakage can be ensured by using open-source LLMs with documented training data and published weights. Using LLM outputs for estimation problems to automate the measurement of some economic concept (expressed either by some text or from human subjects) requires the researcher to collect at least some validation data: without such data, the errors of the LLM’s automation cannot be assessed and accounted for. As long as these steps are taken, LLM outputs can be used in empirical research with the familiar econometric guarantees we desire. Using two illustrative applications to finance and political economy, we find that these requirements are stringent; when they are violated, the limitations of LLMs now result in unreliable empirical estimates. Our results suggest the excitement around the empirical uses of LLMs is warranted — they allow researchers to effectively use even small amounts of language data for both prediction and estimation — but only with these safeguards in place.
arxiv情報
著者 | Jens Ludwig,Sendhil Mullainathan,Ashesh Rambachan |
発行日 | 2025-01-03 14:19:58+00:00 |
arxivサイト | arxiv_id(pdf) |