要約
この論文では、事前に訓練された大手言語モデル(LLMS)を使用したドキュメントからの概念抽出のアプローチを提示します。
ドキュメントで説明されている重要な情報を要約するキーフレーズを抽出する従来の方法と比較して、私たちのアプローチは、重要なドメインだけでなく、特定のドメインに関連するすべての現在の概念を抽出するというより困難なタスクに取り組んでいます。
広く使用されている2つのベンチマークデータセットの包括的な評価を通じて、私たちの方法は、最先端の手法と比較してF1スコアを改善することを実証します。
さらに、監視されていない概念抽出のためにこれらのモデル内でプロンプトを使用する可能性を調査します。
抽出された概念は、オントロジーのドメインカバレッジ評価をサポートし、オントロジー学習を促進することを目的としており、概念抽出タスクにおけるLLMの有効性を強調しています。
ソースコードとデータセットは、https://github.com/ise-fizkarlsruhe/concept_extractionで公開されています。
要約(オリジナル)
In this paper, an approach for concept extraction from documents using pre-trained large language models (LLMs) is presented. Compared with conventional methods that extract keyphrases summarizing the important information discussed in a document, our approach tackles a more challenging task of extracting all present concepts related to the specific domain, not just the important ones. Through comprehensive evaluations of two widely used benchmark datasets, we demonstrate that our method improves the F1 score compared to state-of-the-art techniques. Additionally, we explore the potential of using prompts within these models for unsupervised concept extraction. The extracted concepts are intended to support domain coverage evaluation of ontologies and facilitate ontology learning, highlighting the effectiveness of LLMs in concept extraction tasks. Our source code and datasets are publicly available at https://github.com/ISE-FIZKarlsruhe/concept_extraction.
arxiv情報
著者 | Ebrahim Norouzi,Sven Hertling,Harald Sack |
発行日 | 2025-04-17 13:05:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google