A Comprehensive Analysis of Static Word Embeddings for Turkish

要約

単語埋め込みは、自然言語処理 (NLP) アプリケーションで使用される、固定長の高密度で分散された単語表現です。
単語埋め込みモデルには基本的に、非コンテキスト (静的) モデルとコンテキスト モデルの 2 種類があります。
前者の方法では、コンテキストに関係なく単語の単一のエンベディングが生成されますが、後者の方法では、単語が出現する特定のコンテキストに基づいて単語の個別のエンベディングが生成されます。
異なる言語のそれぞれのグループ内でコンテキスト埋め込みモデルと非コンテキスト埋め込みモデルを比較する研究は数多くあります。
しかし、これら 2 つのグループのモデルを相互に比較した研究の数は非常に少なく、トルコ語ではそのような研究はありません。
このプロセスでは、コンテキストによる埋め込みを静的な埋め込みに変換する必要があります。
このペーパーでは、トルコ語の本質的評価設定と外部評価設定の両方で、いくつかのコンテキスト モデルと非コンテキスト モデルのパフォーマンスを比較および評価します。
モデルの構文的機能と意味的機能を個別に分析することで、詳細な比較を行います。
分析の結果は、さまざまなタイプの NLP タスクにおけるさまざまな埋め込みモデルの適合性に関する洞察を提供します。
また、この研究で使用される埋め込みモデルで構成されるトルコ語単語埋め込みリポジトリも構築します。これは、トルコ語 NLP 分野の研究者や実践者にとって貴重なリソースとして役立つ可能性があります。
単語の埋め込み、スクリプト、評価データセットを一般公開します。

要約(オリジナル)

Word embeddings are fixed-length, dense and distributed word representations that are used in natural language processing (NLP) applications. There are basically two types of word embedding models which are non-contextual (static) models and contextual models. The former method generates a single embedding for a word regardless of its context, while the latter method produces distinct embeddings for a word based on the specific contexts in which it appears. There are plenty of works that compare contextual and non-contextual embedding models within their respective groups in different languages. However, the number of studies that compare the models in these two groups with each other is very few and there is no such study in Turkish. This process necessitates converting contextual embeddings into static embeddings. In this paper, we compare and evaluate the performance of several contextual and non-contextual models in both intrinsic and extrinsic evaluation settings for Turkish. We make a fine-grained comparison by analyzing the syntactic and semantic capabilities of the models separately. The results of the analyses provide insights about the suitability of different embedding models in different types of NLP tasks. We also build a Turkish word embedding repository comprising the embedding models used in this work, which may serve as a valuable resource for researchers and practitioners in the field of Turkish NLP. We make the word embeddings, scripts, and evaluation datasets publicly available.

arxiv情報

著者 Karahan Sarıtaş,Cahid Arda Öz,Tunga Güngör
発行日 2024-05-13 14:23:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク