要約
コンテキストの伝播は、言語モデルのアーキテクチャ、特に長距離依存関係の保持を必要とするタスクにおける中心的な課題のままです。
従来の注意メカニズムは、多くのアプリケーションで効果的ですが、離散トークン相互作用に依存するため、拡張シーケンス上でコヒーレントなコンテキスト表現を維持する際に制限を示します。
本質的なテンソルフィールド伝播(ITFP)の定式化を通じて新しいアプローチが導入されます。これは、トークンの埋め込みに分布する連続テンソルフィールドとしてコンテキスト関係をモデル化します。
伝播ダイナミクスは、コンテキスト情報の構造化されたフローを可能にする微分方程式を通じて支配され、標準的な注意メカニズムを強化してコヒーレンスとリコールを強化します。
オープンソーストランスベースのモデルで実施された一連の実験は、ITFPがさまざまな言語構造にわたってコンテキスト保持、依存関係解像度、および推論の安定性の測定可能な改善を提供することを示しています。
ベースラインモデルとの比較により、構文の矛盾と事実上の誤りが減少することが明らかになり、アブレーション研究では、伝播深度と統合強度の選択がモデルのパフォーマンスに大きく影響することが示されています。
ドメイン一般化を評価する追加の評価は、ITFPが異なるテキストジャンルに効果的に適応し、従来の言語モデリングタスクを超えて適用性を強化することを示唆しています。
計算トレードオフはテンソルフィールド計算を含めることで導入されますが、経験的な調査結果は、精度とコヒーレンスの利点が処理需要の増加を上回ることを示唆しています。
要約(オリジナル)
Context propagation remains a central challenge in language model architectures, particularly in tasks requiring the retention of long-range dependencies. Conventional attention mechanisms, while effective in many applications, exhibit limitations in maintaining coherent contextual representations over extended sequences due to their reliance on discrete token interactions. A novel approach is introduced through the formulation of Intrinsic Tensor Field Propagation (ITFP), which models contextual relationships as continuous tensor fields distributed across token embeddings. The propagation dynamics are governed through differential equations that enable a structured flow of contextual information, augmenting the standard attention mechanism to enhance coherence and recall. A series of experiments conducted on an open-source transformer-based model demonstrate that ITFP provides measurable improvements in contextual retention, dependency resolution, and inference stability across various linguistic structures. Comparisons with baseline models reveal a reduction in syntactic inconsistencies and factual errors, while ablation studies indicate that the choice of propagation depth and integration strength significantly impacts model performance. Additional evaluations assessing domain generalization suggest that ITFP effectively adapts across different text genres, reinforcing its applicability beyond conventional language modeling tasks. Although computational trade-offs are introduced through the inclusion of tensor field computations, empirical findings suggest that the benefits in accuracy and coherence outweigh the increased processing demands.
arxiv情報
著者 | Alfred Bexley,Lukas Radcliffe,Giles Weatherstone,Joseph Sakau |
発行日 | 2025-03-25 12:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google