要約
AI 駆動の大規模言語モデル (LLM) の出現により、質的研究における LLM の役割についての議論が巻き起こりました。
これらを人間の理解を豊かにするツールとみなす人もいれば、学問の中核的価値観に対する脅威であると考える人もいます。
この研究は、人間と LLM の理解能力を比較対照することを目的としました。
私たちは、人間のアナリストによって最初に分類された Alexa アプリのレビューの小さなサンプルを使用して実験を実施しました。
次に、LLM はこれらのレビューを分類し、それぞれの分類の背後にある理由を説明するよう求められました。
私たちはその結果を人間の分類と推論と比較しました。
この研究では、ケースの 3 分の 1 で人間と ChatGPT 3.5 分類との間に有意な一致が見られ、ケースの 4 分の 1 以上で GPT4 との一致がわずかに低いことが示されました。
2 つの AI モデルはより高い一致を示し、インスタンスの半数以上で観察されました。
ただし、3 つの方法すべてにわたってコンセンサスが得られたのは、分類の約 5 分の 1 のみでした。
人間の推論と LLM の推論を比較すると、人間のアナリストは個人の経験に大きく依存しているようです。
一方、予想どおり、LLM はアプリのレビューにある特定の単語の選択とアプリ自体の機能コンポーネントに基づいて推論します。
私たちの結果は、人間のLLMの効果的な協力の可能性を強調しており、競合関係ではなく相乗関係であることを示唆しています。
研究者は、自分の仕事における LLM の役割を継続的に評価し、それによって AI と人間が共同して質的研究を強化する未来を促進する必要があります。
要約(オリジナル)
The advent of AI driven large language models (LLMs) have stirred discussions about their role in qualitative research. Some view these as tools to enrich human understanding, while others perceive them as threats to the core values of the discipline. This study aimed to compare and contrast the comprehension capabilities of humans and LLMs. We conducted an experiment with small sample of Alexa app reviews, initially classified by a human analyst. LLMs were then asked to classify these reviews and provide the reasoning behind each classification. We compared the results with human classification and reasoning. The research indicated a significant alignment between human and ChatGPT 3.5 classifications in one third of cases, and a slightly lower alignment with GPT4 in over a quarter of cases. The two AI models showed a higher alignment, observed in more than half of the instances. However, a consensus across all three methods was seen only in about one fifth of the classifications. In the comparison of human and LLMs reasoning, it appears that human analysts lean heavily on their individual experiences. As expected, LLMs, on the other hand, base their reasoning on the specific word choices found in app reviews and the functional components of the app itself. Our results highlight the potential for effective human LLM collaboration, suggesting a synergistic rather than competitive relationship. Researchers must continuously evaluate LLMs role in their work, thereby fostering a future where AI and humans jointly enrich qualitative research.
arxiv情報
著者 | Muneera Bano,Didar Zowghi,Jon Whittle |
発行日 | 2023-06-23 05:21:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google