Using Large Language Models for Qualitative Analysis can Introduce Serious Bias

要約

大規模言語モデル (LLM) は急速に普及しつつありますが、社会科学研究への影響はまだ十分に理解されていません。
この論文では、バングラデシュのコックスバザールでのロヒンギャ難民へのインタビューの記録に適用して、LLM が自由回答型インタビューから得られる大きな N の質的データの分析に役立つかどうかを尋ねます。
LLM を使用してテキストに注釈を付ける場合には、誤解を招く推論につながる可能性のあるバイアスが導入されるリスクがあるため、十分な注意が必要であることがわかりました。
ここで私たちが意味するのは、インタビュー記録に注釈を付ける際に LLM が犯す間違いが、インタビュー対象者の特性に関してランダムではないという、技術的な意味でのバイアスのことです。
柔軟なコーディングを使用して高品質のヒューマン アノテーションで単純な教師ありモデルをトレーニングすると、LLM アノテーションよりも測定誤差とバイアスが少なくなります。
したがって、LLM がバイアスを導入するかどうかを評価するには、いくつかの高品質のアノテーションが必要であることを考えると、アノテーションに LLM を使用するよりも、これらのアノテーションに基づいてオーダーメイドのモデルをトレーニングする方がおそらく望ましいと主張します。

要約(オリジナル)

Large Language Models (LLMs) are quickly becoming ubiquitous, but the implications for social science research are not yet well understood. This paper asks whether LLMs can help us analyse large-N qualitative data from open-ended interviews, with an application to transcripts of interviews with Rohingya refugees in Cox’s Bazaar, Bangladesh. We find that a great deal of caution is needed in using LLMs to annotate text as there is a risk of introducing biases that can lead to misleading inferences. We here mean bias in the technical sense, that the errors that LLMs make in annotating interview transcripts are not random with respect to the characteristics of the interview subjects. Training simpler supervised models on high-quality human annotations with flexible coding leads to less measurement error and bias than LLM annotations. Therefore, given that some high quality annotations are necessary in order to asses whether an LLM introduces bias, we argue that it is probably preferable to train a bespoke model on these annotations than it is to use an LLM for annotation.

arxiv情報

著者 Julian Ashwin,Aditya Chhabra,Vijayendra Rao
発行日 2023-09-29 11:19:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, econ.GN, q-fin.EC パーマリンク