要約
トークン化、正規化、ストップワード除去、ステミング/レンマ化で構成される汎用テキスト前処理パイプラインは、多くのオントロジー マッチング (OM) システムに実装されています。
ただし、テキストの前処理が標準化されていないため、マッピング結果に多様性が生じます。
このペーパーでは、OM タスクに対するテキスト前処理パイプラインの影響を構文レベルで調査します。
49 の異なるアライメントを備えた 8 つのオントロジー アライメント評価イニシアチブ (OAEI) トラック リポジトリに関する私たちの実験では、次のことがわかりました。(1) トークン化と正規化は、現時点ではストップ ワードの削除や語幹/見出し語化より効果的です。
(2) 見出し語化とステミングの選択はタスク固有です。
ポストホック修正を伴うスタンドアロンの見出し語化またはステミングをお勧めします。
(3) Porter Stemmer と Snowball Stemmer のパフォーマンスが Lancaster Stemmer よりも優れていることがわかります。
そして、(4) 品詞 (POS) タグ付けは見出し語化には役に立ちません。
OM タスクで使用される効果の低いストップ ワードの削除と語幹/見出し語化を修復するために、マッチングの正確性と全体的なマッチング パフォーマンスを大幅に向上させる、新しいコンテキスト ベースのパイプライン修復アプローチを提案します。
また、大規模言語モデル (LLM) の新時代におけるテキスト前処理パイプラインの使用についても説明します。
要約(オリジナル)
The generic text preprocessing pipeline, comprising Tokenisation, Normalisation, Stop Words Removal, and Stemming/Lemmatisation, has been implemented in many ontology matching (OM) systems. However, the lack of standardisation in text preprocessing creates diversity in mapping results. In this paper, we investigate the effect of the text preprocessing pipeline on OM tasks at syntactic levels. Our experiments on 8 Ontology Alignment Evaluation Initiative (OAEI) track repositories with 49 distinct alignments indicate: (1) Tokenisation and Normalisation are currently more effective than Stop Words Removal and Stemming/Lemmatisation; and (2) The selection of Lemmatisation and Stemming is task-specific. We recommend standalone Lemmatisation or Stemming with post-hoc corrections. We find that (3) Porter Stemmer and Snowball Stemmer perform better than Lancaster Stemmer; and that (4) Part-of-Speech (POS) Tagging does not help Lemmatisation. To repair less effective Stop Words Removal and Stemming/Lemmatisation used in OM tasks, we propose a novel context-based pipeline repair approach that significantly improves matching correctness and overall matching performance. We also discuss the use of text preprocessing pipeline in the new era of large language models (LLMs).
arxiv情報
著者 | Zhangcheng Qiang,Kerry Taylor,Weiqing Wang |
発行日 | 2024-11-06 14:51:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google