要約
トピック モデリングは、研究傾向の大規模な解釈を可能にするため、科学分野の研究にとって顕著なツールとなっています。
それにもかかわらず、これらのモデルの出力はキーワードのリストとして構造化されており、ラベル付けには手動の解釈が必要です。
この論文では、トピックのラベル付けに対する 3 つの LLM、つまり flan、GPT-4o、および GPT-4 mini の信頼性を評価することを提案します。
BERTopic を活用した以前の研究を利用して、Web of Science データベースに記録されている、2008 年から 2020 年の間にスイスのすべての生物学教授 (n=465) によって執筆されたすべての科学論文 (n=34,797) のデータセットからトピックを生成します。
3 つのモデルの出力を定量的および定性的に評価したところ、まず、両方の GPT モデルがモデルの出力キーワードからトピックを正確かつ正確にラベル付けできることがわかりました。
第二に、研究テーマの複雑さを把握するには、3 単語のラベルが望ましいです。
要約(オリジナル)
Topic Modeling has become a prominent tool for the study of scientific fields, as they allow for a large scale interpretation of research trends. Nevertheless, the output of these models is structured as a list of keywords which requires a manual interpretation for the labelling. This paper proposes to assess the reliability of three LLMs, namely flan, GPT-4o, and GPT-4 mini for topic labelling. Drawing on previous research leveraging BERTopic, we generate topics from a dataset of all the scientific articles (n=34,797) authored by all biology professors in Switzerland (n=465) between 2008 and 2020, as recorded in the Web of Science database. We assess the output of the three models both quantitatively and qualitatively and find that, first, both GPT models are capable of accurately and precisely label topics from the models’ output keywords. Second, 3-word labels are preferable to grasp the complexity of research topics.
arxiv情報
著者 | Diego Kozlowski,Carolina Pradier,Pierre Benz |
発行日 | 2024-08-13 16:07:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google