要約
LLMの最近の開発と幅広いアクセシビリティは、自由回答形式の調査回答の分類を含む、調査研究でそれらをどのように使用できるかについての議論に拍車をかけています。
言語能力により、LLMSは、時間のかかる手動コーディングと、監視された機械学習モデルの事前トレーニングの効率的な代替手段である可能性があります。
このトピックに関するほとんどの既存の研究は、非複雑なトピックまたは単一のLLMに関連する英語の回答に焦点を合わせているため、その調査結果が一般化され、これらの分類の品質が確立された方法と比較されるかどうかは不明です。
この研究では、調査参加の理由に関するドイツのデータを使用して、他のコンテキストでのオープンエンドの調査回答をコーディングするために、異なるLLMを使用できる程度まで調査します。
いくつかの最先端のLLMといくつかのプロンプトアプローチを比較し、人間の専門家コーディングを使用してLLMSのパフォーマンスを評価します。
全体的なパフォーマンスはLLM間で大きく異なり、微調整されたLLMのみが満足のいくレベルの予測パフォーマンスを達成します。
プロンプトアプローチのパフォーマンスの違いは、使用されるLLMを条件としています。
最後に、調査参加の理由のさまざまなカテゴリにわたるLLMSの不平等な分類パフォーマンスは、微調整を使用していない場合、異なるカテゴリー分布をもたらします。
これらの調査結果の意味について、自由回答形式の応答のコーディングに関する方法論的研究と実質的な分析の両方について、およびそのようなデータの処理または実質的に分析する実務家の両方について説明します。
最後に、LLMSの年齢における自動化された応答分類のために自動化された方法を選択する際に研究者が考慮する必要がある多くのトレードオフを強調しています。
そうすることで、私たちの研究は、LLMSが調査研究で効率的かつ正確に、そして確実に活用される可能性のある条件に関する成長する研究機関に貢献しています。
要約(オリジナル)
The recent development and wider accessibility of LLMs have spurred discussions about how they can be used in survey research, including classifying open-ended survey responses. Due to their linguistic capacities, it is possible that LLMs are an efficient alternative to time-consuming manual coding and the pre-training of supervised machine learning models. As most existing research on this topic has focused on English-language responses relating to non-complex topics or on single LLMs, it is unclear whether its findings generalize and how the quality of these classifications compares to established methods. In this study, we investigate to what extent different LLMs can be used to code open-ended survey responses in other contexts, using German data on reasons for survey participation as an example. We compare several state-of-the-art LLMs and several prompting approaches, and evaluate the LLMs’ performance by using human expert codings. Overall performance differs greatly between LLMs, and only a fine-tuned LLM achieves satisfactory levels of predictive performance. Performance differences between prompting approaches are conditional on the LLM used. Finally, LLMs’ unequal classification performance across different categories of reasons for survey participation results in different categorical distributions when not using fine-tuning. We discuss the implications of these findings, both for methodological research on coding open-ended responses and for their substantive analysis, and for practitioners processing or substantively analyzing such data. Finally, we highlight the many trade-offs researchers need to consider when choosing automated methods for open-ended response classification in the age of LLMs. In doing so, our study contributes to the growing body of research about the conditions under which LLMs can be efficiently, accurately, and reliably leveraged in survey research.
arxiv情報
著者 | Leah von der Heyde,Anna-Carolina Haensch,Bernd Weiß,Jessika Daikeler |
発行日 | 2025-06-17 15:28:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google