要約
最新のニューラル ネットワーク (NN) は、広範な生の文データでトレーニングされ、個々の単語を高密度の連続した高次元ベクトルに圧縮することによって分散表現を構築します。
これらの表現は、複数レベルの語彙的意味を捉えることが期待されます。
この論文では、私たちの目的は、語彙の意味をエンコードする際の NN からの分散表現の有効性を調べることです。
最初に、語彙意味論の 3 つのレベル、\textit{local}、\textit{global}、および \textit{mixed} レベルを特定して形式化します。
次に、レベルごとに、多言語データセットを収集または構築し、さまざまな言語モデルを活用し、言語分析理論を採用することで言語モデルを評価します。
この論文は、計算モデルと語彙意味論の間に橋を架け、相互に補完することを目指しています。
要約(オリジナル)
Modern neural networks (NNs), trained on extensive raw sentence data, construct distributed representations by compressing individual words into dense, continuous, high-dimensional vectors. These representations are expected to capture multi-level lexical meaning. In this thesis, our objective is to examine the efficacy of distributed representations from NNs in encoding lexical meaning. Initially, we identify and formalize three levels of lexical semantics: \textit{local}, \textit{global}, and \textit{mixed} levels. Then, for each level, we evaluate language models by collecting or constructing multilingual datasets, leveraging various language models, and employing linguistic analysis theories. This thesis builds a bridge between computational models and lexical semantics, aiming to complement each other.
arxiv情報
著者 | Zhu Liu |
発行日 | 2024-12-03 10:37:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google