Framework-Based Qualitative Analysis of Free Responses of Large Language Models: Algorithmic Fidelity

要約

現在、大規模生成言語モデル (LLM) を使用すると、定性的調査手法を使用して従来分析されていたような、面接の質問に対する自由回答をシミュレートすることができます。
定性的方法論には、自由形式のインタビューや自然言語で自由に行われた会話の手動分析を含む幅広い一連のテクニックが含まれます。
ここでは、LLMによって生成された人工の「シリコン参加者」が、実際の人間集団に一般化できる洞察を生み出すことを目的とした定性的方法を使用して生産的に研究できるかどうかを検討します。
私たちの分析における重要な概念は、Argyle らによって導入された用語であるアルゴリズム忠実度です。
(2023) LLM によって生成された出力が人間の部分集団の信念や態度をどの程度反映しているかを捉えています。
定義上、アルゴリズムの忠実度が高いと、LLM から引き出された潜在的な信念が現実の人間に一般化する可能性があることが示唆されますが、アルゴリズムの忠実度が低いと、そのような研究は無効になります。
ここでは、LLM を使用して、特定の人口統計的特徴を人間の参加者のセットと 1 対 1 で照合するシリコン参加者とのインタビューを生成しました。
フレームワークベースの定性分析を使用して、人間の参加者とシリコンの参加者の両方から得られた主要なテーマが驚くほど類似していることを示しました。
しかし、インタビューの構造と口調を分析したところ、さらに顕著な違いが見つかりました。
また、Aher et al. が説明した超高精度歪みの証拠も発見しました。
(2023年)。
私たちは、テストした LLM (GPT-3.5) には、人間集団への一般化を期待できる十分なアルゴリズムの忠実度がないと結論付けています。
ただし、LLM 研究のペースが速いため、将来的には変更される可能性があります。
したがって、私たちは、特に異質な生きた経験の表現を保証する必要性に関して、LLMベースの定性的研究の妥当性を評価する方法について認識論的規範を確立する必要性を強調します。

要約(オリジナル)

Today, using Large-scale generative Language Models (LLMs) it is possible to simulate free responses to interview questions like those traditionally analyzed using qualitative research methods. Qualitative methodology encompasses a broad family of techniques involving manual analysis of open-ended interviews or conversations conducted freely in natural language. Here we consider whether artificial ‘silicon participants’ generated by LLMs may be productively studied using qualitative methods aiming to produce insights that could generalize to real human populations. The key concept in our analysis is algorithmic fidelity, a term introduced by Argyle et al. (2023) capturing the degree to which LLM-generated outputs mirror human sub-populations’ beliefs and attitudes. By definition, high algorithmic fidelity suggests latent beliefs elicited from LLMs may generalize to real humans, whereas low algorithmic fidelity renders such research invalid. Here we used an LLM to generate interviews with silicon participants matching specific demographic characteristics one-for-one with a set of human participants. Using framework-based qualitative analysis, we showed the key themes obtained from both human and silicon participants were strikingly similar. However, when we analyzed the structure and tone of the interviews we found even more striking differences. We also found evidence of the hyper-accuracy distortion described by Aher et al. (2023). We conclude that the LLM we tested (GPT-3.5) does not have sufficient algorithmic fidelity to expect research on it to generalize to human populations. However, the rapid pace of LLM research makes it plausible this could change in the future. Thus we stress the need to establish epistemic norms now around how to assess validity of LLM-based qualitative research, especially concerning the need to ensure representation of heterogeneous lived experiences.

arxiv情報

著者 Aliya Amirova,Theodora Fteropoulli,Nafiso Ahmed,Martin R. Cowie,Joel Z. Leibo
発行日 2023-10-27 12:10:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク