要約
このペーパーでは、Word2Vec、FastTextなどの従来のモデルや、異なる抽出方法を使用したBERTベースのモデルから派生した静的な埋め込みなど、ハンガリー語のさまざまな静的ワード埋め込みの包括的な分析を紹介します。
これらの埋め込みを内因性タスクと外因性タスクの両方に評価して、そのパフォーマンスの全体的な見方を提供します。
本質的な評価には、セマンティックと構文の関係をキャプチャする埋め込み能力を評価する単語の類推タスクを採用します。
私たちの結果は、従来の静的埋め込み、特に高速テキストがこのタスクに優れており、高精度と平均相互ランク(MRR)スコアを達成することを示しています。
BERTベースのモデルの中で、静的埋め込みを抽出するためのX2static方法は、従来の静的埋め込みの有効性に近づく、脱文脈化された凝集法と比較して優れた性能を示します。
外因性評価のために、双方向LSTMモデルを利用して、名前付きエンティティ認識(NER)と一部のスピーチ(POS)タグ付けタスクを実行します。
結果は、動的モデル、特にx2staticメソッドを使用して抽出された動的モデルから導出された埋め込みが、純粋に静的な埋め込みを上回ることを明らかにしています。
特に、ELMO埋め込みは、NERとPOSの両方のタグ付けタスクで最高の精度を達成し、静的な形式で使用しても、文脈化された表現の利点を強調しています。
私たちの調査結果は、NLPアプリケーションにおける静的な単語埋め込みの継続的な関連性と、BERTベースのモデルの有用性を高めるための高度な抽出方法の可能性を強調しています。
この研究は、ハンガリー語にパフォーマンスを埋め込むことの理解に貢献し、この分野での将来の発展に関する貴重な洞察を提供します。
トレーニングスクリプト、評価コード、制限された語彙、および抽出された埋め込みは、さらなる研究と再現性をサポートするために公開されます。
要約(オリジナル)
This paper presents a comprehensive analysis of various static word embeddings for Hungarian, including traditional models such as Word2Vec, FastText, as well as static embeddings derived from BERT-based models using different extraction methods. We evaluate these embeddings on both intrinsic and extrinsic tasks to provide a holistic view of their performance. For intrinsic evaluation, we employ a word analogy task, which assesses the embeddings ability to capture semantic and syntactic relationships. Our results indicate that traditional static embeddings, particularly FastText, excel in this task, achieving high accuracy and mean reciprocal rank (MRR) scores. Among the BERT-based models, the X2Static method for extracting static embeddings demonstrates superior performance compared to decontextualized and aggregate methods, approaching the effectiveness of traditional static embeddings. For extrinsic evaluation, we utilize a bidirectional LSTM model to perform Named Entity Recognition (NER) and Part-of-Speech (POS) tagging tasks. The results reveal that embeddings derived from dynamic models, especially those extracted using the X2Static method, outperform purely static embeddings. Notably, ELMo embeddings achieve the highest accuracy in both NER and POS tagging tasks, underscoring the benefits of contextualized representations even when used in a static form. Our findings highlight the continued relevance of static word embeddings in NLP applications and the potential of advanced extraction methods to enhance the utility of BERT-based models. This piece of research contributes to the understanding of embedding performance in the Hungarian language and provides valuable insights for future developments in the field. The training scripts, evaluation codes, restricted vocabulary, and extracted embeddings will be made publicly available to support further research and reproducibility.
arxiv情報
著者 | Máté Gedeon |
発行日 | 2025-05-12 17:57:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google