Token2Wave

要約

このペーパーでは、Wave Network から派生した新しいトークン表現方法である Token2Wave の詳細な分析を提供します。Token2Wave は、Wave にインスピレーションを得た複雑なベクトルを通じて入力テキストのグローバル セマンティクスとローカル セマンティクスの両方をキャプチャするように設計されています。
Token2Wave では、各トークンは、入力テキスト全体のグローバル セマンティクスをキャプチャする大きさコンポーネントと、個々のトークンとグローバル セマンティクスの間の関係をエンコードするフェーズ コンポーネントで表されます。
この研究は、順伝播中の干渉や変調などの波状操作の有効性を実証した先行研究に基づいて、収束動作、逆伝播特性、Token2Wave フレームワーク内での埋め込みの独立性を調査します。
詳細な計算複雑性分析により、Token2Wave は BERT と比較してビデオ メモリの使用量とトレーニング時間を大幅に削減できることが示されています。
[CLS] トークン、合計入力テキスト、および分類子パラメーターの勾配比較により、Token2Wave の独自の特性がさらに強調されます。
この研究は、ウェーブベースのトークン表現に関する新たな洞察を提供し、効率的で計算に優しい言語モデル アーキテクチャを可能にする可能性を実証します。

要約(オリジナル)

This paper provides an in-depth analysis of Token2Wave, a novel token representation method derived from the Wave Network, designed to capture both global and local semantics of input text through wave-inspired complex vectors. In Token2Wave, each token is represented with a magnitude component, capturing the global semantics of the entire input text, and a phase component, encoding the relationships between individual tokens and the global semantics. Building on prior research that demonstrated the effectiveness of wave-like operations, such as interference and modulation, during forward propagation, this study investigates the convergence behavior, backpropagation characteristics, and embedding independence within the Token2Wave framework. A detailed computational complexity analysis shows that Token2Wave can significantly reduce video memory usage and training time compared to BERT. Gradient comparisons for the [CLS] token, total input text, and classifier parameters further highlight Token2Wave’s unique characteristics. This research offers new insights into wave-based token representations, demonstrating their potential to enable efficient and computationally friendly language model architectures.

arxiv情報

著者 Xin Zhang,Victor S. Sheng
発行日 2024-11-11 13:48:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク