BanglaAutoKG: Automatic Bangla Knowledge Graph Construction with Semantic Neural Graph Filtering

要約

ナレッジ グラフ (KG) は、関連エンティティをリンクし、コンテキスト豊富な情報を提供し、効率的な情報検索と知識発見をサポートするため、情報処理および推論アプリケーションに不可欠であることが証明されています。
非常に効果的な方法で情報の流れを提示します。
バングラ語は世界中で広く使用されているにもかかわらず、包括的なデータセット、エンコーダ、NER (固有表現認識) モデル、POS (品詞) タグ付け機能、および見出し語の不足により、KG 内で比較的過小評価されており、効率的な情報処理と推論アプリケーションの妨げとなっています。
言語で。
ベンガル語の KG 不足に対処するために、バングラ語テキストからベンガル語 KG を自動的に構築できる先駆的なフレームワークである BanglaAutoKG を提案します。
私たちは多言語 LLM を利用してさまざまな言語を理解し、エンティティと関係を普遍的に関連付けます。
翻訳辞書を使用して英語の同等物を特定し、事前トレーニングされた BERT モデルから単語の特徴を抽出することにより、基礎的な KG を構築します。
ノイズを削減し、単語の埋め込みを目標に合わせるために、グラフベースの多項式フィルターを採用します。
最後に、GNN ベースのセマンティック フィルターを実装します。これにより、文脈の理解が向上し、不必要なエッジがトリミングされ、最終的に最終的な KG が形成されます。
経験的発見と事例研究は、あらゆるテキストから意味論的に強化された KG を自律的に構築できる、私たちのモデルの普遍的な有効性を実証しています。

要約(オリジナル)

Knowledge Graphs (KGs) have proven essential in information processing and reasoning applications because they link related entities and give context-rich information, supporting efficient information retrieval and knowledge discovery; presenting information flow in a very effective manner. Despite being widely used globally, Bangla is relatively underrepresented in KGs due to a lack of comprehensive datasets, encoders, NER (named entity recognition) models, POS (part-of-speech) taggers, and lemmatizers, hindering efficient information processing and reasoning applications in the language. Addressing the KG scarcity in Bengali, we propose BanglaAutoKG, a pioneering framework that is able to automatically construct Bengali KGs from any Bangla text. We utilize multilingual LLMs to understand various languages and correlate entities and relations universally. By employing a translation dictionary to identify English equivalents and extracting word features from pre-trained BERT models, we construct the foundational KG. To reduce noise and align word embeddings with our goal, we employ graph-based polynomial filters. Lastly, we implement a GNN-based semantic filter, which elevates contextual understanding and trims unnecessary edges, culminating in the formation of the definitive KG. Empirical findings and case studies demonstrate the universal effectiveness of our model, capable of autonomously constructing semantically enriched KGs from any text.

arxiv情報

著者 Azmine Toushik Wasi,Taki Hasan Rafi,Raima Islam,Dong-Kyu Chae
発行日 2024-04-05 09:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG, cs.NE, cs.SI パーマリンク