Algorithm for Semantic Network Generation from Texts of Low Resource Languages Such as Kiswahili

要約

スワヒリ語などの低リソース言語を機械学習を使用して処理することは、適切なトレーニング データが不足しているため困難です。
しかし、このような低リソース言語は人間のコミュニケーションにとって依然として重要であり、すでに日常的に使用されており、ユーザーは要約、曖昧さ回避、さらには質問応答 (QA) などの実用的な機械処理タスクを必要としています。
トレーニング データの必要性を回避しながら、このような言語を処理する 1 つの方法は、セマンティック ネットワークを使用することです。
スワヒリ語などの一部の低リソース言語は、主語-動詞-目的語 (SVO) 構造であり、同様に意味論的ネットワークは主語-述語-目的語の 3 つの要素から構成されているため、SVO 品詞タグは意味論的ネットワークの 3 要素にマッピングできます。
したがって、生の自然言語テキストを処理し、それを意味論的ネットワークにマッピングするアルゴリズムは、低リソース言語のテキストを構築する上で必要かつ望ましいものとなります。
このアルゴリズムはスワヒリ語 QA タスクでテストされ、最大 78.6% の完全一致が得られました。

要約(オリジナル)

Processing low-resource languages, such as Kiswahili, using machine learning is difficult due to lack of adequate training data. However, such low-resource languages are still important for human communication and are already in daily use and users need practical machine processing tasks such as summarization, disambiguation and even question answering (QA). One method of processing such languages, while bypassing the need for training data, is the use semantic networks. Some low resource languages, such as Kiswahili, are of the subject-verb-object (SVO) structure, and similarly semantic networks are a triple of subject-predicate-object, hence SVO parts of speech tags can map into a semantic network triple. An algorithm to process raw natural language text and map it into a semantic network is therefore necessary and desirable in structuring low resource languages texts. This algorithm tested on the Kiswahili QA task with upto 78.6% exact match.

arxiv情報

著者 Barack Wamkaya Wanjawa,Lawrence Muchemi,Evans Miriti
発行日 2025-01-16 06:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク