要約
トークン化、正規化、停止単語の除去、および幹/lemmatationを含む古典的なテキストの前処理パイプラインは、構文オントロジーマッチング(OM)のために多くのシステムで実装されています。
ただし、テキストの前処理に標準化の欠如は、マッピング結果に多様性を生み出します。
この論文では、49個の異なるアライメントを備えた8オントロジーアライメント評価イニシアチブ(OAEI)トラックの構文OMに対するテキストの前処理パイプラインの効果を調査します。
フェーズ1テキストの前処理(トークン化と正規化)は、フェーズ2テキストの前処理(停止単語の削除と幹/板化)よりも効果的であることがわかります。
フェーズ2テキストの前処理によって引き起こされる不要な誤ったマッピングを修復するための2つの新しいアプローチを提案します。
1つは、誤ったマッピングを引き起こす一般的な単語を見つけるためにオントロジー固有のチェックを使用するアドホックロジックベースの修理アプローチです。
これらの単語は予約済みの単語セットに保存され、テキストの前処理前に適用されます。
大規模な言語モデル(LLMS)の力を活用することにより、事後LLMベースの修理アプローチも提案します。
このアプローチは、LLMSが提供する強力な背景知識を利用して、テキストの前処理後に存在しない直感に反する誤ったマッピングを修復します。
また、関数呼び出しを介して古典的なテキストの前処理パイプラインを注入することにより、不安定な真マッピングの傾向を克服します。
実験結果は、これらの2つのアプローチが一致する正確性と全体的なマッチングパフォーマンスを改善できることを示しています。
要約(オリジナル)
The classic text preprocessing pipeline, comprising Tokenisation, Normalisation, Stop Words Removal, and Stemming/Lemmatisation, has been implemented in many systems for syntactic ontology matching (OM). However, the lack of standardisation in text preprocessing creates diversity in mapping results. In this paper, we investigate the effect of the text preprocessing pipeline on syntactic OM in 8 Ontology Alignment Evaluation Initiative (OAEI) tracks with 49 distinct alignments. We find that Phase 1 text preprocessing (Tokenisation and Normalisation) is more effective than Phase 2 text preprocessing (Stop Words Removal and Stemming/Lemmatisation). We propose two novel approaches to repair unwanted false mappings caused by Phase 2 text preprocessing. One is an ad hoc logic-based repair approach that employs an ontology-specific check to find common words that cause false mappings. These words are stored in a reserved word set and applied before the text preprocessing. By leveraging the power of large language models (LLMs), we also propose a post hoc LLM-based repair approach. This approach utilises the strong background knowledge provided by LLMs to repair non-existent and counter-intuitive false mappings after the text preprocessing. It also overcomes the tendency towards unstable true mappings by injecting the classic text preprocessing pipeline via function calling. The experimental results show that these two approaches can improve the matching correctness and the overall matching performance.
arxiv情報
著者 | Zhangcheng Qiang,Kerry Taylor,Weiqing Wang |
発行日 | 2025-06-04 15:11:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google