Word-Graph2vec: An efficient word embedding approach on word co-occurrence graph using random walk sampling

要約

単語の埋め込みはユビキタスになり、情報検索、意味分析、機械翻訳など、さまざまなテキスト マイニングや自然言語処理 (NLP) タスクで広く使用されています。
残念ながら、比較的大きなコーパスに埋め込まれた単語をトレーニングするには、非常にコストがかかります。
Word-Graph2vec と呼ばれるグラフベースの単語埋め込みアルゴリズムを提案します。これは、大きなコーパスを単語共起グラフに変換し、ランダムに移動してこのグラフから単語シーケンス サンプルを取得し、このサンプリング コーパスに埋め込まれた単語をトレーニングします。
終わり。
英語の安定した語彙、相対的イディオム、および固定表現のために、単語の共起グラフのサイズと密度は、トレーニング コーパスの増加とともにわずかに変化すると仮定します。
そのため、Word-Graph2vec は大規模なデータ セットで安定したランタイムを持ち、そのパフォーマンスの利点はトレーニング コーパスの成長とともにますます明白になります。
実世界のデータセットで行われた広範な実験では、ランダム ウォーク サンプリングによって生成されるエラーが小さい一方で、提案されたアルゴリズムが従来の Skip-Gram よりも効率の点で 4 ~ 5 倍優れていることが示されています。

要約(オリジナル)

Word embedding has become ubiquitous and is widely used in various text mining and natural language processing (NLP) tasks, such as information retrieval, semantic analysis, and machine translation, among many others. Unfortunately, it is prohibitively expensive to train the word embedding in a relatively large corpus. We propose a graph-based word embedding algorithm, called Word-Graph2vec, which converts the large corpus into a word co-occurrence graph, then takes the word sequence samples from this graph by randomly traveling and trains the word embedding on this sampling corpus in the end. We posit that because of the stable vocabulary, relative idioms, and fixed expressions in English, the size and density of the word co-occurrence graph change slightly with the increase in the training corpus. So that Word-Graph2vec has stable runtime on the large scale data set, and its performance advantage becomes more and more obvious with the growth of the training corpus. Extensive experiments conducted on real-world datasets show that the proposed algorithm outperforms traditional Skip-Gram by four-five times in terms of efficiency, while the error generated by the random walk sampling is small.

arxiv情報

著者 Wenting Li,Yuanzhe Cai,Jiahong Xue,Xi Zhang,Huacan Chen,Zeyu Chen
発行日 2023-03-10 11:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク