要約
形態学的処理の研究により、意味認識にとって意味的な透明性が重要であることが示されています。
その計算運用はまだ議論されています。
私たちの主な目的は、セマンティック透明性の埋め込みベースの尺度を調査し、読み取りへの影響を評価することです。
最初に、セマンティックスペースの複雑な単語のジオメトリを調査しました。
そのために、4,226マレーの接頭辞ワードでT-Sistributedの確率的隣接埋め込みクラスタリング分析を実施しました。
プレフィックスクラスによって異なる複雑な単語でいくつかのクラスターが観察されました。
次に、5つの簡単な対策を導き出し、それらが語彙決定潜伏期の重要な予測因子であるかどうかを調査しました。
単語の埋め込みまたはシフトベクトル(つまり、派生単語からのベース単語のベクトル減算)のいずれかから単語の接頭辞が予測される2つの線形判別分析が実行されました。
モデルが単語のプレフィックスを予測する精度は、プレフィックスの透明度の程度を示します。
各単語と同じプレフィックス(すなわち、重心)を含む他のすべての単語の間の埋め込み、各単語からのシフト、および各単語からのシフト、および構成セマンティック空間モデルのアフリックスの機能表現の予測された単語の間の埋め込みを比較することにより、さらに3つの測定値が得られました。
一連の一般化された添加剤混合モデルでは、すべての測定では、単語の頻度、単語の長さ、形態学的な家族のサイズを考慮した後、すべての測定が決定レイテンシを予測しました。
予測子として各単語とその重心との相関を含むモデルは、データに最適な適合性を提供しました。
要約(オリジナル)
Studies of morphological processing have shown that semantic transparency is crucial for word recognition. Its computational operationalization is still under discussion. Our primary objectives are to explore embedding-based measures of semantic transparency, and assess their impact on reading. First, we explored the geometry of complex words in semantic space. To do so, we conducted a t-distributed Stochastic Neighbor Embedding clustering analysis on 4,226 Malay prefixed words. Several clusters were observed for complex words varied by their prefix class. Then, we derived five simple measures, and investigated whether they were significant predictors of lexical decision latencies. Two sets of Linear Discriminant Analyses were run in which the prefix of a word is predicted from either word embeddings or shift vectors (i.e., a vector subtraction of the base word from the derived word). The accuracy with which the model predicts the prefix of a word indicates the degree of transparency of the prefix. Three further measures were obtained by comparing embeddings between each word and all other words containing the same prefix (i.e., centroid), between each word and the shift from their base word, and between each word and the predicted word of the Functional Representations of Affixes in Compositional Semantic Space model. In a series of Generalized Additive Mixed Models, all measures predicted decision latencies after accounting for word frequency, word length, and morphological family size. The model that included the correlation between each word and their centroid as a predictor provided the best fit to the data.
arxiv情報
著者 | M. Maziyah Mohamed,R. H. Baayen |
発行日 | 2025-05-09 11:57:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google