要約
私たちは、文脈に沿った単語の使用法の自動生成された自然言語定義を、解釈可能な単語および単語の意味表現として使用することを提案します。
ターゲット単語の用法例のコレクションと、対応するデータ駆動型用法クラスター (つまり、単語の意味) が与えられると、特殊な Flan-T5 言語モデルを使用して用法ごとに定義が生成され、用法における最も典型的な定義が生成されます。
クラスタがセンスラベルとして選択されます。
結果として得られる意味ラベルによって、意味変化分析に対する既存のアプローチがどのように解釈しやすくなり、歴史言語学者、辞書編集者、社会科学者などのユーザーが単語の意味の通時的な軌跡を探索し、直感的に説明できるようにする方法を示します。
意味変更分析は、「表現としての定義」パラダイムの多くの可能な応用例の 1 つにすぎません。
人間が可読であるだけでなく、文脈化された定義は、文脈内の単語の意味的類似性の判断においてトークンや使用文の埋め込みよりも優れており、NLP の新しい有望な語彙表現となっています。
要約(オリジナル)
We propose using automatically generated natural language definitions of contextualised word usages as interpretable word and word sense representations. Given a collection of usage examples for a target word, and the corresponding data-driven usage clusters (i.e., word senses), a definition is generated for each usage with a specialised Flan-T5 language model, and the most prototypical definition in a usage cluster is chosen as the sense label. We demonstrate how the resulting sense labels can make existing approaches to semantic change analysis more interpretable, and how they can allow users — historical linguists, lexicographers, or social scientists — to explore and intuitively explain diachronic trajectories of word meaning. Semantic change analysis is only one of many possible applications of the `definitions as representations’ paradigm. Beyond being human-readable, contextualised definitions also outperform token or usage sentence embeddings in word-in-context semantic similarity judgements, making them a new promising type of lexical representation for NLP.
arxiv情報
著者 | Mario Giulianelli,Iris Luden,Raquel Fernandez,Andrey Kutuzov |
発行日 | 2023-07-25 11:50:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google