要約
ワードネットのような言語資源は、さまざまな自然言語タスクやアプリケーションにとって不可欠なツールであり続けている。しかし、フィリピン語のような低資源言語では、既存の単語ネットは古く、時代遅れである。本稿では、ラベル付けされていないコーパスと文埋め込みベースの言語モデルのみを用いて、単語ネットをゼロから自動的に構築する方法を提案する。これを用いて、時代遅れのフィリピン語ワードネットに取って代わり、改善された新しいワードネットであるFilWordNetを作成する。自動的に生成された語義とシセットを、Princeton WordNet の語義とマッチングさせ、古い Filipino WordNet と比較することで評価する。本手法は、既存の語義だけでなく、潜在的に新しい語義やシセットを、人間の監視を必要とせずに自動生成できることを実証的に示す。
要約(オリジナル)
Language resources such as wordnets remain indispensable tools for different natural language tasks and applications. However, for low-resource languages such as Filipino, existing wordnets are old and outdated, and producing new ones may be slow and costly in terms of time and resources. In this paper, we propose an automatic method for constructing a wordnet from scratch using only an unlabeled corpus and a sentence embeddings-based language model. Using this, we produce FilWordNet, a new wordnet that supplants and improves the outdated Filipino WordNet. We evaluate our automatically-induced senses and synsets by matching them with senses from the Princeton WordNet, as well as comparing the synsets to the old Filipino WordNet. We empirically show that our method can induce existing, as well as potentially new, senses and synsets automatically without the need for human supervision.
arxiv情報
著者 | Dan John Velasco,Axel Alba,Trisha Gail Pelagio,Bryce Anthony Ramirez,Jan Christian Blaise Cruz,Charibeth Cheng |
発行日 | 2023-08-04 11:12:09+00:00 |
arxivサイト | arxiv_id(pdf) |