要約
要素ごとの埋め込みと呼ばれる計算言語表現の新しい手法を提案します。この手法では、素材 (意味単位) が低次元要素 (文字) 埋め込みの水平方向の連結に抽象化されます。
要素は常に文字ですが、マテリアルは意味単位の任意のレベルであるため、あらゆるタイプのトークン化に一般化されます。
重要な文字のみに焦点を当てるために、各セマンティック ユニットの $n^{th}$ スペルは $n^{th}$ アテンション ヘッドに配置され、連結されて元の形式に戻され、独自の埋め込み表現が作成されます。
それらは一緒に投影され、それによって独自の文脈上の重要性を決定します。
技術的には、このフレームワークは、それぞれが $v$ 要素で構成される一連のマテリアルを $h=v$ アテンション ヘッドを持つトランスフォーマーに渡すことによって実現されます。
純粋な埋め込み技術として、要素ごとの埋め込みは、変換モデルの $w$ 次元の埋め込みテーブルを $256$ $c$ 次元の要素 (それぞれが UTF-8 バイトの 1 つに対応する) で置き換えます。ここで、$c=w/v$ です。
この斬新なアプローチを使用して、標準のトランスフォーマー アーキテクチャをすべてのレベルの言語表現に再利用でき、アーキテクチャの変更や追加のオーバーヘッドなしで、より長いシーケンスを同時に複雑に処理できることを示します。
要素ごとの埋め込みでトレーニングされた BERT は、$0.005\%$ の埋め込みパラメーターを使用しているにもかかわらず、ドメイン特異性とデータの不均衡に対して優れたロバスト性を示すマルチラベルの特許ドキュメント分類で、そのサブワードの同等性 (元の実装) よりも優れています。
実験は、これらの拡張機能を異なるアーキテクチャのトランスフォーマー CANINE および ALBERT にうまく転送することにより、提案された方法の一般化可能性を示しています。
要約(オリジナル)
We propose a new technique for computational language representation called elementwise embedding, in which a material (semantic unit) is abstracted into a horizontal concatenation of lower-dimensional element (character) embeddings. While elements are always characters, materials are arbitrary levels of semantic units so it generalizes to any type of tokenization. To focus only on the important letters, the $n^{th}$ spellings of each semantic unit are aligned in $n^{th}$ attention heads, then concatenated back into original forms creating unique embedding representations; they are jointly projected thereby determining own contextual importance. Technically, this framework is achieved by passing a sequence of materials, each consists of $v$ elements, to a transformer having $h=v$ attention heads. As a pure embedding technique, elementwise embedding replaces the $w$-dimensional embedding table of a transformer model with $256$ $c$-dimensional elements (each corresponding to one of UTF-8 bytes) where $c=w/v$. Using this novel approach, we show that the standard transformer architecture can be reused for all levels of language representations and be able to process much longer sequences at the same time-complexity without ‘any’ architectural modification and additional overhead. BERT trained with elementwise embedding outperforms its subword equivalence (original implementation) in multilabel patent document classification exhibiting superior robustness to domain-specificity and data imbalance, despite using $0.005\%$ of embedding parameters. Experiments demonstrate the generalizability of the proposed method by successfully transferring these enhancements to differently architected transformers CANINE and ALBERT.
arxiv情報
著者 | Dunam Kim,Jeeeun Kim |
発行日 | 2023-02-27 02:15:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google