Thematic Analysis with Large Language Models: does it work with languages other than English? A targeted test in Italian

要約

この論文では、英語とは異なる言語のデータに対して大規模言語モデル (LLM) を使用してテーマ分析 (TA) を実行するテストを提案します。
英語のデータの TA に事前トレーニング済み LLM を使用するという有望な初期の研究はありましたが、これらのモデルが他の言語でも同じ分析を高品質で合理的に実行できるかどうかについてのテストが不足しています。
この論文では、イタリア語での半構造化インタビューのオープンアクセス データセットを使用したテストが提案されます。
このテストでは、事前トレーニングされたモデルがイタリア語のプロンプトを使用して、データに対してこのような TA を実行できることを示しています。
比較テストでは、人間の研究者が独自に作成したテーマとよく似たテーマを作成するモデルの能力が示されています。
この研究の主な意味は、言語が使用されるモデルでサポートされている限り、事前トレーニングされた LLM が多言語状況での分析をサポートするのに適している可能性があるということです。

要約(オリジナル)

This paper proposes a test to perform Thematic Analysis (TA) with Large Language Model (LLM) on data which is in a different language than English. While there has been initial promising work on using pre-trained LLMs for TA on data in English, we lack any tests on whether these models can reasonably perform the same analysis with good quality in other language. In this paper a test will be proposed using an open access dataset of semi-structured interviews in Italian. The test shows that a pre-trained model can perform such a TA on the data, also using prompts in Italian. A comparative test shows the model capacity to produce themes which have a good resemblance with those produced independently by human researchers. The main implication of this study is that pre-trained LLMs may thus be suitable to support analysis in multilingual situations, so long as the language is supported by the model used.

arxiv情報

著者 Stefano De Paoli
発行日 2024-04-12 14:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク