Hierarchical Autoregressive Transformers: Combining Byte- and Word-Level Processing for Robust, Adaptable Language Models

要約

トークン化は自然言語処理の基本的なステップであり、テキストを計算モデルが処理できる単位に分割します。
学習型サブワード トークナイザーは事実上の標準になっていますが、語彙が多い、新しいドメインや言語への適応性が限られている、スペル エラーやバリエーションに敏感であるなどの課題があります。
これらの制限を克服するために、文字レベルと単語レベルの処理を組み合わせた自己回帰言語モデリングの階層アーキテクチャを調査します。
軽量の文字レベルのエンコーダを採用して、文字シーケンスを単語埋め込みに変換します。その後、単語レベルのバックボーン モデルによって処理され、コンパクトな文字レベルのデコーダを介して文字にデコードされます。
この方法では、事前に定義された厳密な語彙に依存せずに、単語レベルのトークン化によるシーケンス圧縮の利点が維持されます。
最大 70 億パラメータのスケールで、階層型トランスフォーマーがサブワード トークナイザー ベースのモデルの下流タスクのパフォーマンスに匹敵すると同時に、入力摂動に対して大幅に優れた堅牢性を示すことを実証します。
さらに、ドメイン外の言語で継続的に事前トレーニングを行うと、モデルはほぼ 2 倍の速度でトレーニングされ、ターゲット言語で優れたパフォーマンスを達成し、以前に学習した知識をより多く保持します。
階層型トランスフォーマーは、より堅牢で柔軟性があり、言語やドメイン間で汎用化できる NLP システムへの道を開きます。

要約(オリジナル)

Tokenization is a fundamental step in natural language processing, breaking text into units that computational models can process. While learned subword tokenizers have become the de-facto standard, they present challenges such as large vocabularies, limited adaptability to new domains or languages, and sensitivity to spelling errors and variations. To overcome these limitations, we investigate a hierarchical architecture for autoregressive language modelling that combines character-level and word-level processing. It employs a lightweight character-level encoder to convert character sequences into word embeddings, which are then processed by a word-level backbone model and decoded back into characters via a compact character-level decoder. This method retains the sequence compression benefits of word-level tokenization without relying on a rigid, predefined vocabulary. We demonstrate, at scales up to 7 billion parameters, that hierarchical transformers match the downstream task performance of subword-tokenizer-based models while exhibiting significantly greater robustness to input perturbations. Additionally, during continued pretraining on an out-of-domain language, our model trains almost twice as fast, achieves superior performance on the target language, and retains more of its previously learned knowledge. Hierarchical transformers pave the way for NLP systems that are more robust, flexible, and generalizable across languages and domains.

arxiv情報

著者 Pit Neitemeier,Björn Deiseroth,Constantin Eichenberg,Lukas Balles
発行日 2025-01-20 09:33:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク