Zero-Shot Topic Classification of Column Headers: Leveraging LLMs for Metadata Enrichment

要約

従来のデータセット取得システムは、基礎となるデータ値ではなく、メタデータに基づいてインデックスを作成します。
ただし、高品質のメタデータの作成と強化には手動の注釈が必要になることが多く、これは労働集約的で自動化が困難なプロセスです。
この研究では、ChatGPT-3.5、GoogleBard、および GoogleGemini の 3 つの大規模言語モデル (LLM) によって生成されたトピック アノテーションを使用してメタデータ エンリッチメントをサポートする方法を提案します。
私たちの分析は、Linked Data が管理する語彙である欧州社会科学データ アーカイブ コンソーシアム (CESSDA) のドメイン固有のトピックに基づいて列ヘッダーを分類することに重点を置いています。
私たちのアプローチはゼロショット設定で機能し、制御されたトピックの語彙を入力プロンプト内に直接統合します。
この統合は、トピック分類タスクの結果を向上させることを目的とした、ラージ コンテキスト ウィンドウのアプローチとして機能します。
私たちは、内部一貫性、マシン間の調整、および人間による分類との一致の観点から LLM のパフォーマンスを評価しました。
さらに、分類結果に対するコンテキスト情報 (つまり、データセットの説明) の影響を調査します。
私たちの調査結果は、ChatGPT と GoogleGemini が内部一貫性および LLM と人間の合意の点で GoogleBard よりも優れていることを示唆しています。
興味深いことに、コンテキスト情報は LLM のパフォーマンスに大きな影響を与えないことがわかりました。
この研究では、制御された語彙を使用して列ヘッダーのトピック分類に LLM を活用する新しいアプローチを提案し、セマンティック Web ドメイン内での LLM とラージ コンテキスト ウィンドウの実際的なアプリケーションを示します。
このアプローチには、メタデータの自動強化が容易になり、データセットの検索と、Web 上の研究データの検索可能性、アクセシビリティ、相互運用性、再利用性 (FAIR) が強化される可能性があります。

要約(オリジナル)

Traditional dataset retrieval systems rely on metadata for indexing, rather than on the underlying data values. However, high-quality metadata creation and enrichment often require manual annotations, which is a labour-intensive and challenging process to automate. In this study, we propose a method to support metadata enrichment using topic annotations generated by three Large Language Models (LLMs): ChatGPT-3.5, GoogleBard, and GoogleGemini. Our analysis focuses on classifying column headers based on domain-specific topics from the Consortium of European Social Science Data Archives (CESSDA), a Linked Data controlled vocabulary. Our approach operates in a zero-shot setting, integrating the controlled topic vocabulary directly within the input prompt. This integration serves as a Large Context Windows approach, with the aim of improving the results of the topic classification task. We evaluated the performance of the LLMs in terms of internal consistency, inter-machine alignment, and agreement with human classification. Additionally, we investigate the impact of contextual information (i.e., dataset description) on the classification outcomes. Our findings suggest that ChatGPT and GoogleGemini outperform GoogleBard in terms of internal consistency as well as LLM-human-agreement. Interestingly, we found that contextual information had no significant impact on LLM performance. This work proposes a novel approach that leverages LLMs for topic classification of column headers using a controlled vocabulary, presenting a practical application of LLMs and Large Context Windows within the Semantic Web domain. This approach has the potential to facilitate automated metadata enrichment, thereby enhancing dataset retrieval and the Findability, Accessibility, Interoperability, and Reusability (FAIR) of research data on the Web.

arxiv情報

著者 Margherita Martorana,Tobias Kuhn,Lise Stork,Jacco van Ossenbruggen
発行日 2024-09-06 14:49:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.IR パーマリンク