Text Classification Based on Knowledge Graphs and Improved Attention Mechanism

要約

テキストの意味上の曖昧さを解決するために、ナレッジ グラフと改良された注意メカニズムを革新的に組み合わせたモデルを提案します。
既存の知識ベースを利用して、関連する文脈上の概念でテキストを充実させます。
このモデルは文字レベルと単語レベルの両方で動作し、概念を統合することで理解を深めます。
まず、情報利得を利用して輸入語を選択します。
次に、エンコーダ/デコーダ フレームワークを使用して、関連する概念とともにテキストをエンコードします。
ローカル アテンション メカニズムは各概念の重みを調整し、分類中に無関係な概念やノイズの多い概念の影響を軽減します。
ローカル自己注意メカニズムの注意スコアの計算式を改善し、テキスト内での出現頻度が異なる単語がより高い注意スコアを獲得できるようにしました。
最後に、このモデルは双方向ゲート再帰ユニット (Bi-GRU) を採用しています。これは、分類精度を向上させるためにテキストからの特徴抽出に効果的です。
そのパフォーマンスは AGNews、Ohsumed、TagMyNews などのデータセットで実証され、それぞれ 75.1%、58.7%、68.5% の精度を達成し、タスクの分類における有効性を示しています。

要約(オリジナル)

To resolve the semantic ambiguity in texts, we propose a model, which innovatively combines a knowledge graph with an improved attention mechanism. An existing knowledge base is utilized to enrich the text with relevant contextual concepts. The model operates at both character and word levels to deepen its understanding by integrating the concepts. We first adopt information gain to select import words. Then an encoder-decoder framework is used to encode the text along with the related concepts. The local attention mechanism adjusts the weight of each concept, reducing the influence of irrelevant or noisy concepts during classification. We improve the calculation formula for attention scores in the local self-attention mechanism, ensuring that words with different frequencies of occurrence in the text receive higher attention scores. Finally, the model employs a Bi-directional Gated Recurrent Unit (Bi-GRU), which is effective in feature extraction from texts for improved classification accuracy. Its performance is demonstrated on datasets such as AGNews, Ohsumed, and TagMyNews, achieving accuracy of 75.1%, 58.7%, and 68.5% respectively, showing its effectiveness in classifying tasks.

arxiv情報

著者 Siyu Li,Lu Chen,Chenwei Song,Xinyi Liu
発行日 2024-01-07 22:20:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク