3D-EX : A Unified Dataset of Definitions and Dictionary Examples

要約

定義は、辞書編集、言語学、および計算意味論における基本的な構成要素です。
NLP では、単語の埋め込みを改良したり、言語モデルの文脈表現を強化したりするために使用されてきました。
ただし、定義を含む語彙リソースは幅広い特性を示し、それがトレーニングおよび評価されるモデルの動作に影響を及ぼします。
この論文では、よく知られた英語のリソースを <用語、定義、例> のトリプルの形式で 1 ​​つの集中型知識リポジトリに結合することで、このギャップを埋めることを目的としたデータセットである 3D-EX を紹介します。
3D-EX は、暗記を防ぐために慎重に事前計算されたトレーニング/検証/テスト分割を備えた統合評価フレームワークです。
このデータセットが下流の NLP タスクで効果的に活用できることを示唆する実験結果を報告します。
コードとデータは https://github.com/F-Almeman/3D-EX で入手できます。

要約(オリジナル)

Definitions are a fundamental building block in lexicography, linguistics and computational semantics. In NLP, they have been used for retrofitting word embeddings or augmenting contextual representations in language models. However, lexical resources containing definitions exhibit a wide range of properties, which has implications in the behaviour of models trained and evaluated on them. In this paper, we introduce 3D- EX , a dataset that aims to fill this gap by combining well-known English resources into one centralized knowledge repository in the form of triples. 3D- EX is a unified evaluation framework with carefully pre-computed train/validation/test splits to prevent memorization. We report experimental results that suggest that this dataset could be effectively leveraged in downstream NLP tasks. Code and data are available at https://github.com/F-Almeman/3D-EX .

arxiv情報

著者 Fatemah Almeman,Hadi Sheikhi,Luis Espinosa-Anke
発行日 2023-08-11 12:07:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク