要約
大規模なニューラルアーキテクチャ内のトークン表現戦略は、しばしば文脈的に洗練された埋め込みに依存していますが、従来のアプローチは、トークン相互作用内で構造化された関係を明示的にエンコードすることはめったにありません。
自己関節メカニズムは、動的なコンテキスト依存関係を効果的にキャプチャしますが、学習した体重分布への依存により、生成されたシーケンスの長距離階層構造の保存が制限されます。
依存関係の認識トークンエンコーディングは、初期化を埋め込むための構造化されたアプローチを導入し、注意力学のみを通じて推測されるのではなく、トークン表現にリレーショナル制約が埋め込まれるようにします。
提案されているエンコーディングメカニズムは、依存関係加重注意計算を介してトークンの相互作用を改善し、複数の処理層にわたって構文とセマンティックの依存関係が保持されるようにします。
経験的評価は、多様な言語ベンチマーク全体の困惑の減少を示しており、文脈的一貫性の改善と自己回帰テキスト生成の予測的一貫性を示唆しています。
計算効率の評価により、エンコーディングモジュール内の追加のマトリックス計算に起因するメモリ消費とトレーニング時間の中程度の増加が明らかになりますが、従来の変圧器アーキテクチャ内ではスケーラビリティが実行可能なままです。
構造化されたエンコーディングは、語彙の変動と依存関係の保持を強化し、外部の構文アノテーションや補助トレーニング目標を必要とせずに言語の一貫性を強化します。
統計的比較は、特に従来の自己触媒モデルが階層的な一貫性に分解を示す長いシーケンスで、依存関係のアラインメントの改善を強調しています。
文の長さ分布は、急激なフレーズの遷移の減少を示し、明示的な依存性エンコードがより構造化されたフレーズ生成を促進するという仮説をさらにサポートします。
要約(オリジナル)
Token representation strategies within large-scale neural architectures often rely on contextually refined embeddings, yet conventional approaches seldom encode structured relationships explicitly within token interactions. Self-attention mechanisms effectively capture dynamic contextual dependencies, but their reliance on learned weight distributions limits the preservation of long-range hierarchical structures in generated sequences. Dependency-aware token encoding introduces a structured approach to embedding initialization, ensuring that relational constraints are embedded within token representations rather than inferred solely through attention dynamics. The proposed encoding mechanism refines token interactions through dependency-weighted attention computations, ensuring that syntactic and semantic dependencies are retained across multiple processing layers. Empirical evaluations indicate reductions in perplexity across diverse linguistic benchmarks, suggesting improvements in contextual coherence and predictive consistency in autoregressive text generation. Computational efficiency assessments reveal a moderate increase in memory consumption and training time, attributed to additional matrix computations within the encoding module, yet scalability remains feasible within conventional transformer architectures. Structured encoding enhances lexical variation and dependency retention, reinforcing linguistic coherence without requiring external syntactic annotations or auxiliary training objectives. Statistical comparisons highlight improvements in dependency alignment, particularly in longer sequences where conventional self-attention models exhibit degradation in hierarchical consistency. Sentence length distributions indicate a reduction in abrupt phrase transitions, further supporting the hypothesis that explicit dependency encoding facilitates more structured phrase generation.
arxiv情報
著者 | James Blades,Frederick Somerfield,William Langley,Susan Everingham,Maurice Witherington |
発行日 | 2025-01-30 08:51:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google