BanglaAutoKG: Automatic Bangla Knowledge Graph Construction with Semantic Neural Graph Filtering

要約

ナレッジグラフ(KG)は、関連するエンティティをリンクし、コンテキストに富んだ情報を提供し、効率的な情報検索や知識発見をサポートするため、情報処理や推論アプリケーションにおいて不可欠であることが証明されている。バングラ語は世界的に広く使用されているにもかかわらず、包括的なデータセット、エンコーダ、NER(名前付きエンティティ認識)モデル、品詞(part-of-speech)タガー、およびレマタイザが不足しているため、KGの存在感が相対的に低く、バングラ語の効率的な情報処理と推論アプリケーションを妨げている。ベンガル語におけるKGの不足に対処するため、我々はBanglaAutoKGを提案する。BanglaAutoKGは、あらゆるベンガル語のテキストからベンガル語のKGを自動的に構築できる先駆的なフレームワークである。多言語LLMを利用することで、様々な言語を理解し、実体と関係を普遍的に関連付ける。翻訳辞書を使用して英語の等価物を識別し、事前に訓練されたBERTモデルから単語の特徴を抽出することで、基礎となるKGを構築する。ノイズを低減し、単語埋め込みを目標に合わせるために、グラフベースの多項式フィルタを採用する。最後に、GNNベースの意味フィルタを実装し、文脈理解を高め、不要なエッジを切り捨て、最終的に決定的なKGを形成する。経験的な知見とケーススタディは、あらゆるテキストから自律的に意味的に強化されたKGを構築できる、我々のモデルの普遍的な有効性を実証している。

要約(オリジナル)

Knowledge Graphs (KGs) have proven essential in information processing and reasoning applications because they link related entities and give context-rich information, supporting efficient information retrieval and knowledge discovery; presenting information flow in a very effective manner. Despite being widely used globally, Bangla is relatively underrepresented in KGs due to a lack of comprehensive datasets, encoders, NER (named entity recognition) models, POS (part-of-speech) taggers, and lemmatizers, hindering efficient information processing and reasoning applications in the language. Addressing the KG scarcity in Bengali, we propose BanglaAutoKG, a pioneering framework that is able to automatically construct Bengali KGs from any Bangla text. We utilize multilingual LLMs to understand various languages and correlate entities and relations universally. By employing a translation dictionary to identify English equivalents and extracting word features from pre-trained BERT models, we construct the foundational KG. To reduce noise and align word embeddings with our goal, we employ graph-based polynomial filters. Lastly, we implement a GNN-based semantic filter, which elevates contextual understanding and trims unnecessary edges, culminating in the formation of the definitive KG. Empirical findings and case studies demonstrate the universal effectiveness of our model, capable of autonomously constructing semantically enriched KGs from any text.

arxiv情報

著者 Azmine Toushik Wasi,Taki Hasan Rafi,Raima Islam,Dong-Kyu Chae
発行日 2024-04-04 15:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR, cs.LG, cs.NE, cs.SI パーマリンク