Word-Graph2vec: An efficient word embedding approach on word co-occurrence graph using random walk sampling

要約

単語埋め込みはユビキタスになり、情報検索、意味分析、機械翻訳など、さまざまなテキスト マイニングや自然言語処理 (NLP) タスクで広く使用されています。
残念ながら、比較的大きなコーパスに埋め込まれた単語を学習させるには法外なコストがかかります。
我々は、Word-Graph2vec と呼ばれるグラフベースの単語埋め込みアルゴリズムを提案します。このアルゴリズムは、大規模なコーパスを単語共起グラフに変換し、ランダムに移動することでこのグラフから単語シーケンス サンプルを取得し、このサンプリング コーパスに単語埋め込みをトレーニングします。
終わり。
英語には安定した語彙、相対的イディオム、固定表現があるため、トレーニング コーパスの増加に伴って単語の共起グラフのサイズと密度がわずかに変化すると仮定します。
そのため、Word-Graph2vec は大規模なデータ セットでも安定した実行時間を実現し、トレーニング コーパスの成長に伴ってそのパフォーマンスの利点がますます明らかになります。
実世界のデータセットに対して行われた広範な実験により、提案されたアルゴリズムは効率の点で従来のスキップグラムよりも 4 ~ 5 倍優れており、ランダム ウォーク サンプリングによって生成される誤差は小さいことが示されています。

要約(オリジナル)

Word embedding has become ubiquitous and is widely used in various text mining and natural language processing (NLP) tasks, such as information retrieval, semantic analysis, and machine translation, among many others. Unfortunately, it is prohibitively expensive to train the word embedding in a relatively large corpus. We propose a graph-based word embedding algorithm, called Word-Graph2vec, which converts the large corpus into a word co-occurrence graph, then takes the word sequence samples from this graph by randomly traveling and trains the word embedding on this sampling corpus in the end. We posit that because of the stable vocabulary, relative idioms, and fixed expressions in English, the size and density of the word co-occurrence graph change slightly with the increase in the training corpus. So that Word-Graph2vec has stable runtime on the large scale data set, and its performance advantage becomes more and more obvious with the growth of the training corpus. Extensive experiments conducted on real-world datasets show that the proposed algorithm outperforms traditional Skip-Gram by four-five times in terms of efficiency, while the error generated by the random walk sampling is small.

arxiv情報

著者 Wenting Li,Jiahong Xue,Xi Zhang,Huacan Chen,Zeyu Chen,Yuanzhe Cai
発行日 2023-12-19 09:12:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク