Knowledge-Infused Self Attention Transformers

要約

Transformer ベースの言語モデルは、セルフ アテンション メカニズムを使用して複雑な依存関係やコンテキスト情報をキャプチャできるため、さまざまな自然言語処理タスクで目覚ましい成功を収めています。
ただし、制限がないわけではありません。
これらの制限には、高い信頼度で不正確な出力が生成される幻覚や、人間のユーザーにとって役に立たない安全でない出力が生成される調整の問題が含まれます。
これらの制限は、データのみに暗黙的なコンテキストが存在しないこと、またはコンテキストが欠落していることに起因します。
これに対処するために、研究者らは、ナレッジ グラフからの外部知識でこれらのモデルを強化し、必要な追加のコンテキストを提供することを検討しました。
ただし、既存の方法のアドホックな性質により、変圧器の多くの可動部品やコンポーネントに対する知識注入の影響を適切に分析することが困難になります。
この論文では、トランスベースのモデルのさまざまなコンポーネントに知識を注入する体系的な方法を紹介します。
セルフアテンション メカニズム、エンコーダ層、入力埋め込み層など、知識の注入を適用できるトランスフォーマー アーキテクチャ内の特定のコンポーネントを識別するためのモジュール式フレームワークが提案されています。
さらに、一般言語理解評価 (GLUE) ベンチマーク タスクに関して広範な実験が行われ、その結果が報告されます。
この体系的なアプローチは、言語モデル アーキテクチャに知識を組み込むためのより原則に基づいたアプローチを促進することを目的としています。

要約(オリジナル)

Transformer-based language models have achieved impressive success in various natural language processing tasks due to their ability to capture complex dependencies and contextual information using self-attention mechanisms. However, they are not without limitations. These limitations include hallucinations, where they produce incorrect outputs with high confidence, and alignment issues, where they generate unhelpful and unsafe outputs for human users. These limitations stem from the absence of implicit and missing context in the data alone. To address this, researchers have explored augmenting these models with external knowledge from knowledge graphs to provide the necessary additional context. However, the ad-hoc nature of existing methods makes it difficult to properly analyze the effects of knowledge infusion on the many moving parts or components of a transformer. This paper introduces a systematic method for infusing knowledge into different components of a transformer-based model. A modular framework is proposed to identify specific components within the transformer architecture, such as the self-attention mechanism, encoder layers, or the input embedding layer, where knowledge infusion can be applied. Additionally, extensive experiments are conducted on the General Language Understanding Evaluation (GLUE) benchmark tasks, and the findings are reported. This systematic approach aims to facilitate more principled approaches to incorporating knowledge into language model architectures.

arxiv情報

著者 Kaushik Roy,Yuxin Zi,Vignesh Narayanan,Manas Gaur,Amit Sheth
発行日 2023-06-23 13:55:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク