Algebraic Positional Encodings

要約

Transformer スタイルのモデルに新しい位置エンコード戦略を導入し、アドホックな既存のアプローチの欠点に対処します。
私たちのフレームワークは、ドメインの代数的仕様から直交演算子としての解釈までの柔軟なマッピングを提供します。
この設計では、ソース ドメインの代数的特性が保存され、モデルが望ましい構造特性を確実に維持します。
私たちのスキームは、シーケンス、グリッド、ツリー、およびそれらの構成を含むさまざまな構造に対応できます。
私たちは、アプローチの実際的な適用可能性を実証するために一連の実験を実施します。
結果は、ハイパーパラメータの最適化やいかなる種類の「タスク検索」も行わなくても、現在の最先端技術と同等またはそれを上回るパフォーマンスを示しています。
コードは \url{github.com/konstantinosKokos/UnitaryPE} で入手可能になります。

要約(オリジナル)

We introduce a novel positional encoding strategy for Transformer-style models, addressing the shortcomings of existing, often ad hoc, approaches. Our framework provides a flexible mapping from the algebraic specification of a domain to an interpretation as orthogonal operators. This design preserves the algebraic characteristics of the source domain, ensuring that the model upholds the desired structural properties. Our scheme can accommodate various structures, including sequences, grids and trees, as well as their compositions. We conduct a series of experiments to demonstrate the practical applicability of our approach. Results suggest performance on par with or surpassing the current state-of-the-art, without hyperparameter optimizations or “task search” of any kind. Code will be made available at \url{github.com/konstantinosKokos/UnitaryPE}.

arxiv情報

著者 Konstantinos Kogkalidis,Jean-Philippe Bernardy,Vikas Garg
発行日 2023-12-26 13:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク