要約
我々は、テキストから因果関係のあるミクロナラティブを分類するための新しいアプローチを提案します。
これらの物語は、対象となる主題の原因および/または結果を文レベルで説明するものです。
このアプローチには原因と結果の主題固有のオントロジーのみが必要であり、インフレの物語への適用でそれを実証します。
歴史的および現代の米国ニュース記事にわたる人間による注釈付きデータセットをトレーニングに使用して、このマルチラベル分類タスクでいくつかの大規模言語モデル (LLM) を評価します。
最もパフォーマンスの高いモデルである微調整された Llama 3.1 8B は、物語検出で 0.87、物語分類で 0.71 の F1 スコアを達成しました。
包括的なエラー分析により、言語の曖昧さから生じる課題が明らかになり、モデルのエラーが人間のアノテーターの意見の相違を反映していることがよくあることが浮き彫りになります。
この研究は、現実世界のデータから因果関係のミクロな物語を抽出するためのフレームワークを確立し、社会科学研究への幅広い応用が可能です。
要約(オリジナル)
We present a novel approach to classify causal micro-narratives from text. These narratives are sentence-level explanations of the cause(s) and/or effect(s) of a target subject. The approach requires only a subject-specific ontology of causes and effects, and we demonstrate it with an application to inflation narratives. Using a human-annotated dataset spanning historical and contemporary US news articles for training, we evaluate several large language models (LLMs) on this multi-label classification task. The best-performing model–a fine-tuned Llama 3.1 8B–achieves F1 scores of 0.87 on narrative detection and 0.71 on narrative classification. Comprehensive error analysis reveals challenges arising from linguistic ambiguity and highlights how model errors often mirror human annotator disagreements. This research establishes a framework for extracting causal micro-narratives from real-world data, with wide-ranging applications to social science research.
arxiv情報
著者 | Mourad Heddaya,Qingcheng Zeng,Chenhao Tan,Rob Voigt,Alexander Zentefis |
発行日 | 2024-10-07 17:55:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google