Mapping Wordnets on the Fly with Permanent Sense Keys

要約

セマンティックウェブの主要なデータベースの多くは、Princeton WordNet(PWN)の類義語セット(synset)識別子へのリンクを持っていますが、これらはPWNのリリースごとに異なるため、バージョン間で互換性がありません。一方、PWNと最近のOpen English Wordnet (OEWN)は、永久的な語義識別子(センスキー)を提供しており、この相互運用性の問題を解決することができる。 我々は、PWNセンスキーを使用するWordnetバージョンの任意のペア間のシンセットマッピングを自動的に導出する、線形時間で実行されるアルゴリズムを提示する。これにより、古いWordNetのリンクを更新し、事前のマッピングが存在しない新しい英語Wordnetのバージョンとシームレスに相互運用することができます。 提案するアルゴリズムをロード時にオンザフライで適用することで、Open Multilingual Wordnet (OMW 1.4, 旧PWN 3.0 識別子を使用)とOEWN Edition 2021を組み合わせ、ほぼ完璧な精度とリコールを得ることができました。シンセット識別子として、それぞれシンセットオフセットとCollaborative InterLingual Index (CILI version 1.0)を用いたアプローチの結果を比較したところ、シンセットオフセットは、いくつかのタイを除くすべてのケースでCILI 1.0よりも性能が良いことがわかりました。

要約(オリジナル)

Most of the major databases on the semantic web have links to Princeton WordNet (PWN) synonym set (synset) identifiers, which differ for each PWN release, and are thus incompatible between versions. On the other hand, both PWN and the more recent Open English Wordnet (OEWN) provide permanent word sense identifiers (the sense keys), which can solve this interoperability problem. We present an algorithm that runs in linear time, to automatically derive a synset mapping between any pair of Wordnet versions that use PWN sense keys. This allows to update old WordNet links, and seamlessly interoperate with newer English Wordnet versions for which no prior mapping exists. By applying the proposed algorithm on the fly, at load time, we combine the Open Multilingual Wordnet (OMW 1.4, which uses old PWN 3.0 identifiers) with OEWN Edition 2021, and obtain almost perfect precision and recall. We compare the results of our approach using respectively synset offsets, versus the Collaborative InterLingual Index (CILI version 1.0) as synset identifiers, and find that the synset offsets perform better than CILI 1.0 in all cases, except a few ties.

arxiv情報

著者 Eric Kafe
発行日 2023-03-03 11:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク