要約
この論文では、政治科学研究に典型的なテキスト分類タスクにおけるオープンソースの大規模言語モデル (LLM) のパフォーマンスを研究します。
スタンス、トピック、関連性の分類などのタスクを調査することで、研究者がテキスト分析での LLM の使用について十分な情報に基づいた決定を下せるようガイドすることを目的としています。
具体的には、ニュース記事とツイートのデータセットを使用して、さまざまなテキスト注釈タスクにわたってゼロショット LLM と微調整 LLM の両方の評価を実施します。
私たちの分析によると、微調整によってオープンソース LLM のパフォーマンスが向上し、ゼロショット GPT-3.5 や GPT-4 と同等かそれを超えることができるようになりますが、微調整された GPT-3.5 にはまだ及ばないことが示されています。
さらに、注釈付きテキストの量が比較的少ない数ショットのトレーニングよりも、微調整の方が好ましいことを証明します。
私たちの調査結果は、微調整されたオープンソース LLM が幅広いテキスト注釈アプリケーションに効果的に導入できることを示しています。
他の研究者向けに、テキスト注釈での LLM の適用を容易にする Python ノートブックを提供します。
要約(オリジナル)
This paper studies the performance of open-source Large Language Models (LLMs) in text classification tasks typical for political science research. By examining tasks like stance, topic, and relevance classification, we aim to guide scholars in making informed decisions about their use of LLMs for text analysis. Specifically, we conduct an assessment of both zero-shot and fine-tuned LLMs across a range of text annotation tasks using news articles and tweets datasets. Our analysis shows that fine-tuning improves the performance of open-source LLMs, allowing them to match or even surpass zero-shot GPT-3.5 and GPT-4, though still lagging behind fine-tuned GPT-3.5. We further establish that fine-tuning is preferable to few-shot training with a relatively modest quantity of annotated text. Our findings show that fine-tuned open-source LLMs can be effectively deployed in a broad spectrum of text annotation applications. We provide a Python notebook facilitating the application of LLMs in text annotation for other researchers.
arxiv情報
著者 | Meysam Alizadeh,Maël Kubli,Zeynab Samei,Shirin Dehghani,Mohammadmasiha Zahedivafa,Juan Diego Bermeo,Maria Korobeynikova,Fabrizio Gilardi |
発行日 | 2024-05-29 12:29:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google