要約
科学分野の急速な進化は、科学文献の組織化と取得における課題をもたらします。
専門家が治療した分類法は伝統的にこのニーズに対処してきましたが、このプロセスは時間がかかり、高価です。
さらに、最近の自動分類法の構築方法のいずれかのいずれかのいずれかです。(1)特定のコーパスの依存、一般化を犠牲にするか、(2)進化する科学的領域の動的な性質を過剰に監視することが多いトレーニング前のデータセットに含まれる大規模な言語モデル(LLM)の一般的な知識に大きく依存しています。
さらに、これらのアプローチは、単一の研究論文が複数の次元(方法論、新しいタスク、評価メトリック、ベンチマークなど)に寄与する科学文献の多面的な性質を説明できません。
これらのギャップに対処するために、TaxoAdaptを提案します。これは、LLM生成された分類法を複数の次元にわたって特定のコーパスに動的に適応させるフレームワークです。
TaxoAdaptは反復的な階層分類を実行し、コーパスの局所分布に基づいて分類幅と深さの両方を拡大します。
科学的分野の進化を構成して捉える能力を紹介するために、長年にわたって多様なコンピューターサイエンス会議のセットで最先端のパフォーマンスを実証しています。
多次元の方法として、TaxoAdaptは、LLMSで判断された最も競争の激しいベースラインよりも26.51%の粒度性存在と50.41%の一貫性のある分類法を生成します。
要約(オリジナル)
The rapid evolution of scientific fields introduces challenges in organizing and retrieving scientific literature. While expert-curated taxonomies have traditionally addressed this need, the process is time-consuming and expensive. Furthermore, recent automatic taxonomy construction methods either (1) over-rely on a specific corpus, sacrificing generalizability, or (2) depend heavily on the general knowledge of large language models (LLMs) contained within their pre-training datasets, often overlooking the dynamic nature of evolving scientific domains. Additionally, these approaches fail to account for the multi-faceted nature of scientific literature, where a single research paper may contribute to multiple dimensions (e.g., methodology, new tasks, evaluation metrics, benchmarks). To address these gaps, we propose TaxoAdapt, a framework that dynamically adapts an LLM-generated taxonomy to a given corpus across multiple dimensions. TaxoAdapt performs iterative hierarchical classification, expanding both the taxonomy width and depth based on corpus’ topical distribution. We demonstrate its state-of-the-art performance across a diverse set of computer science conferences over the years to showcase its ability to structure and capture the evolution of scientific fields. As a multidimensional method, TaxoAdapt generates taxonomies that are 26.51% more granularity-preserving and 50.41% more coherent than the most competitive baselines judged by LLMs.
arxiv情報
著者 | Priyanka Kargupta,Nan Zhang,Yunyi Zhang,Rui Zhang,Prasenjit Mitra,Jiawei Han |
発行日 | 2025-06-12 14:26:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google