要約
オントロジーマッチング(OM)は、データの相互運用性と知識の共有を可能にする上で重要な役割を果たしますが、機械学習アプローチにおける大規模なトレーニングデータセットと限られた語彙処理が必要なため、困難なままです。
最近、大規模な言語モデル(LLMS)に基づいた方法は、特に回収されたトレイブ – プロムプトパイプラインを使用することにより、OMに大きな期待を示しています。
このアプローチでは、関連するターゲットエンティティが最初に取得され、次にLLMに最終試合を予測するよう促すために使用されます。
それらの可能性にもかかわらず、これらのシステムはまだ限られたパフォーマンスと高い計算オーバーヘッドを示しています。
これらの問題に対処するために、優先された深度検索(PDFS)戦略内に回収されたIdentify-Pipelineを埋め込む新しいアプローチであるMILAを紹介します。
このアプローチは、高精度で多数のセマンティック対応を効率的に識別し、LLM要求を最も境界線の場合のみに制限します。
Ontology Alignment評価イニシアチブの2023年および2024年版で提案された生物医学的課題を使用してMILAを評価しました。
私たちの方法は、5つの監視されていないタスクのうち4つで最高のFメジャーを達成し、最先端のOMシステムを最大17%上回りました。
また、主要な監視されたOMシステムよりも優れたパフォーマンスを発揮しました。
MILAはさらにタスクに依存しないパフォーマンスを示し、すべてのタスクと設定にわたって安定したままでありながら、LLM要求を大幅に削減しました。
これらの調査結果は、ドメイン固有のヒューリスティックや微調整を必要とせずに、プログラムされた(PDFS)、学習(ベクターの埋め込み)、およびプロンプトベースのヒューリスティックの組み合わせを通じて、高性能LLMベースのOMを達成できることを強調しています。
要約(オリジナル)
Ontology matching (OM) plays a key role in enabling data interoperability and knowledge sharing, but it remains challenging due to the need for large training datasets and limited vocabulary processing in machine learning approaches. Recently, methods based on Large Language Model (LLMs) have shown great promise in OM, particularly through the use of a retrieve-then-prompt pipeline. In this approach, relevant target entities are first retrieved and then used to prompt the LLM to predict the final matches. Despite their potential, these systems still present limited performance and high computational overhead. To address these issues, we introduce MILA, a novel approach that embeds a retrieve-identify-prompt pipeline within a prioritized depth-first search (PDFS) strategy. This approach efficiently identifies a large number of semantic correspondences with high accuracy, limiting LLM requests to only the most borderline cases. We evaluated MILA using the biomedical challenge proposed in the 2023 and 2024 editions of the Ontology Alignment Evaluation Initiative. Our method achieved the highest F-Measure in four of the five unsupervised tasks, outperforming state-of-the-art OM systems by up to 17%. It also performed better than or comparable to the leading supervised OM systems. MILA further exhibited task-agnostic performance, remaining stable across all tasks and settings, while significantly reducing LLM requests. These findings highlight that high-performance LLM-based OM can be achieved through a combination of programmed (PDFS), learned (embedding vectors), and prompting-based heuristics, without the need of domain-specific heuristics or fine-tuning.
arxiv情報
著者 | Maria Taboada,Diego Martinez,Mohammed Arideh,Rosa Mosquera |
発行日 | 2025-03-27 11:29:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google