Lexical Manifold Reconfiguration in Large Language Models: A Novel Architectural Approach for Contextual Modulation

要約

トークン埋め込みのコンテキスト適応は、言語モデルが一貫性を維持し、拡張されたテキストシーケンスにわたって意味関係を維持する方法を決定する上で中心的な役割を果たします。
静的埋め込みは、しばしば語彙の柔軟性に制約を課し、複雑な文構造またはドメイン固有の用語シフトに直面した場合、最適ではないパフォーマンスにつながります。
この制限に対処するために、連続した幾何学的変換を通じてトークンの埋め込みを動的に再構成するために構造化されたアプローチが開発され、進化する談話構造に応じて表現が進化するようにしました。
字句ベースの変換メカニズムが統合され、語彙位置を調節し、さまざまなテキストコンテキスト全体で言語関係を維持しながら、埋め込みが制御されたシフトを受けることができました。
実証的評価により、再構成を埋め込むことで、特に構造化されたドメイン適応テキスト生成タスクにおいて、困惑の削減、語彙的一貫性の向上、および文レベルの連続性が向上することが実証されました。
埋め込みドリフトの比較分析は、動的に再構築された表現がより強力なコンテキストの一貫性を維持し、言語モデリング出力の流encyさを維持しながらトークン依存性の不整合を減らすことを示しました。
計算オーバーヘッド評価により、埋め込みの反復改良によりトレーニングの複雑さが増加している一方で、推論は効率的なままであり、リアルタイム生成の実用的な実現可能性を確保することが確認されました。
複数のデータセットにわたる評価により、動的に変調された埋め込みがより広範な語彙の多様性を示し、繰り返しのトークンパターンを減らし、より適応性のある表現学習プロセスを可能にすることがさらに実証されました。

要約(オリジナル)

Contextual adaptation in token embeddings plays a central role in determining how well language models maintain coherence and retain semantic relationships over extended text sequences. Static embeddings often impose constraints on lexical flexibility, leading to suboptimal performance when faced with complex sentence structures or domain-specific terminology shifts. To address this limitation, a structured approach was developed for dynamically reconfiguring token embeddings through continuous geometric transformations, ensuring that representations evolved in response to evolving discourse structures. A manifold-based transformation mechanism was integrated to regulate lexical positioning, allowing embeddings to undergo controlled shifts while preserving linguistic relationships across varying textual contexts. Empirical evaluations demonstrated that embedding reconfiguration contributed to reductions in perplexity, improved lexical coherence, and enhanced sentence-level continuity, particularly in structured and domain-adaptive text generation tasks. Comparative analyses of embedding drift indicated that dynamically restructured representations maintained stronger contextual consistency, reducing misalignment in token dependencies while preserving fluency in language modeling outputs. Computational overhead assessments confirmed that while training complexity increased due to the iterative refinement of embeddings, inference remained efficient, ensuring practical feasibility for real-time generation. Evaluations across multiple datasets further demonstrated that dynamically modulated embeddings exhibited broader lexical diversity, reducing repetitive token patterns and enabling a more adaptable representation learning process.

arxiv情報

著者 Koinis Vassilis,Godfrey Milbourne,Harriet Featherstone,Xanthe Peverell,Yorick Bletchley,Zachary Montford
発行日 2025-03-26 15:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク