Interchangeable Token Embeddings for Extendable Vocabulary and Alpha-Equivalence

要約

私たちは、言語モデルで交換可能なトークンを学習して、新しいトークンに一般化できる拡張可能な語彙を取得するための新しいアプローチを提案します。
私たちの方法は、構文式でバインドされた変数の名前を変更するとセマンティクスが保持されるという原理であるアルファ等価性に対処するように設計されています。
この特性は、すべての命題記号が同じ概念を表しますが、互いに区別できる、時相論理などの多くの形式言語で発生します。
このようなトークンを処理するために、私たちは二重部分の埋め込みアプローチを開発しました。
最初の部分はすべての交換可能なトークン間で共有されるため、それらが同じ中心概念を表すことが強制されます。
2 番目の部分はトークンごとにランダムに生成されるため、区別が可能になります。
線形時相論理式を解くことと、拡張可能な語彙を使用してコピーすることという 2 つのタスクに関して、Transformer エンコーダ/デコーダ モデルでメソッドを評価します。
私たちの方法は、アルファ等価性に対する有利な誘導バイアスを導入することに加えて、有望な一般化機能を実証します。

要約(オリジナル)

We propose a novel approach for learning interchangeable tokens in language models to obtain an extendable vocabulary that can generalize to new tokens. Our method is designed to address alpha-equivalence, the principle that renaming bound variables in a syntactic expression preserves semantics. This property arises in many formal languages such as temporal logics, in which all proposition symbols represent the same concept but are distinguishable from each other. To handle such tokens, we develop a dual-part embedding approach. The first part is shared across all interchangeable tokens, thereby enforcing that they represent the same core concept. The second part is randomly generated for each token, which enables distinguishability. We evaluate our method in a Transformer encoder-decoder model on two tasks: solving linear temporal logic formulae and copying with extendable vocabulary. Our method demonstrates promising generalization capabilities in addition to introducing a favorable inductive bias for alpha-equivalence.

arxiv情報

著者 İlker Işık,Ramazan Gokberk Cinbis,Ebru Aydin Gol
発行日 2024-10-22 16:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.LO パーマリンク