How Does A Text Preprocessing Pipeline Affect Ontology Syntactic Matching?

要約

トークン化、正規化、停止単語の除去、および幹/lemmatationを含む古典的なテキストの前処理パイプラインは、構文オントロジーマッチング(OM)のために多くのシステムで実装されています。
ただし、テキストの前処理に標準化の欠如は、マッピング結果に多様性を生み出します。
このペーパーでは、49個の異なるアライメントを備えた8オントロジーアライメント評価イニシアチブ(OAEI)トラックの構文OMに対するテキスト前処理パイプラインの効果を調査します。
フェーズ1テキストの前処理(トークン化と正規化)は、フェーズ2テキストの前処理(停止単語の削除と幹/板化)よりも効果的であることがわかります。
フェーズ2テキストの前処理によって引き起こされる不要な誤ったマッピングを修復するために、誤ったマッピングを引き起こす一般的な単語を見つけるために事後チェックを使用する新しいコンテキストベースのパイプライン修理アプローチを提案します。
これらの単語は予約済みの単語セットに保存され、テキストの前処理に適用されます。
実験結果は、私たちのアプローチが一致する正確性と全体的なマッチングパフォーマンスを改善することを示しています。
次に、OMの最新の大手言語モデル(LLMS)との古典的なテキストの前処理パイプラインのより広範な統合を検討します。
(1)LLMプロンプトによって生成された不安定な真マッピングの傾向を避けるために、LLMSに呼び出す機能を介してテキスト前処理パイプラインを注入することをお勧めします。
または(2)LLMを使用して、テキストの前処理パイプラインによって生成された存在しない非直感に反する誤ったマッピングを修復します。

要約(オリジナル)

The classic text preprocessing pipeline, comprising Tokenisation, Normalisation, Stop Words Removal, and Stemming/Lemmatisation, has been implemented in many systems for syntactic ontology matching (OM). However, the lack of standardisation in text preprocessing creates diversity in mapping results. In this paper we investigate the effect of the text preprocessing pipeline on syntactic OM in 8 Ontology Alignment Evaluation Initiative (OAEI) tracks with 49 distinct alignments. We find that Phase 1 text preprocessing (Tokenisation and Normalisation) is more effective than Phase 2 text preprocessing (Stop Words Removal and Stemming/Lemmatisation). To repair the unwanted false mappings caused by Phase 2 text preprocessing, we propose a novel context-based pipeline repair approach that employs a post hoc check to find common words that cause false mappings. These words are stored in a reserved word set and applied in text preprocessing. The experimental results show that our approach improves the matching correctness and the overall matching performance. We then consider the broader integration of the classic text preprocessing pipeline with modern large language models (LLMs) for OM. We recommend that (1) the text preprocessing pipeline be injected via function calling into LLMs to avoid the tendency towards unstable true mappings produced by LLM prompting; or (2) LLMs be used to repair non-existent and counter-intuitive false mappings generated by the text preprocessing pipeline.

arxiv情報

著者 Zhangcheng Qiang,Kerry Taylor,Weiqing Wang
発行日 2025-03-31 16:35:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク