要約
この論文では、複数の Web リソースからクロールされた 6,100 万語以上の単語で構成される新しい単語埋め込みベースのコーパスを提案します。
クロールされたデータから不要なテキストをフィルタリングするための前処理パイプラインを設計します。
その後、クリーン化された語彙は、最先端の連続バッグオブワード、スキップグラム、および GloVe 単語埋め込みアルゴリズムに供給されます。
事前トレーニングされた埋め込みの評価には、一般的な組み込みおよび外部評価アプローチを使用します。
評価結果は、Continuous-bag-of-words と Skip-gram が、内部評価アプローチと外部評価アプローチの両方において、GloVe および既存のシンド語 fastText 単語埋め込みよりも優れたパフォーマンスを発揮することを明らかにしました。
要約(オリジナル)
In this paper, we propose a new word embedding based corpus consisting of more than 61 million words crawled from multiple web resources. We design a preprocessing pipeline for the filtration of unwanted text from crawled data. Afterwards, the cleaned vocabulary is fed to state-of-the-art continuous-bag-of-words, skip-gram, and GloVe word embedding algorithms. For the evaluation of pretrained embeddings, we use popular intrinsic and extrinsic evaluation approaches. The evaluation results reveal that continuous-bag-of-words and skip-gram perform better than GloVe and existing Sindhi fastText word embedding on both intrinsic and extrinsic evaluation approaches
arxiv情報
著者 | Wazir Ali,Saifullah Tumrani,Jay Kumar,Tariq Rahim Soomro |
発行日 | 2024-08-28 11:36:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google