要約
ピクセルベースの言語モデルは、画像としてレンダリングされたテキストを処理するため、あらゆるスクリプトを処理できるため、オープンボキャブラリー言語モデリングへの有望なアプローチとなります。
ただし、最近のアプローチでは、ほぼ同等の入力パッチの大規模なセットを生成するテキスト レンダラーが使用されており、入力表現の冗長性により、下流のタスクには最適ではないことが判明する可能性があります。
この論文では、PIXEL モデルでテキストをレンダリングするための 4 つのアプローチを調査し (Rust et al., 2023)、単純な文字バイグラム レンダリングにより、トークン レベルまたは多言語タスクのパフォーマンスを損なうことなく、文レベルのタスクのパフォーマンスが向上することがわかりました。
この新しいレンダリング戦略により、オリジナルの 86M パラメータ モデルと同等のパフォーマンスを発揮する、わずか 22M パラメータを備えたよりコンパクトなモデルをトレーニングすることも可能になります。
私たちの分析により、文字バイグラム レンダリングは一貫して優れたモデルにつながるが、パッチ周波数バイアスによって駆動される異方性パッチ埋め込み空間を伴うことが示され、画像パッチベースの言語モデルとトークン化ベースの言語モデルの間のつながりが強調されています。
要約(オリジナル)
Pixel-based language models process text rendered as images, which allows them to handle any script, making them a promising approach to open vocabulary language modelling. However, recent approaches use text renderers that produce a large set of almost-equivalent input patches, which may prove sub-optimal for downstream tasks, due to redundancy in the input representations. In this paper, we investigate four approaches to rendering text in the PIXEL model (Rust et al., 2023), and find that simple character bigram rendering brings improved performance on sentence-level tasks without compromising performance on token-level or multilingual tasks. This new rendering strategy also makes it possible to train a more compact model with only 22M parameters that performs on par with the original 86M parameter model. Our analyses show that character bigram rendering leads to a consistently better model but with an anisotropic patch embedding space, driven by a patch frequency bias, highlighting the connections between image patch- and tokenization-based language models.
arxiv情報
著者 | Jonas F. Lotz,Elizabeth Salesky,Phillip Rust,Desmond Elliott |
発行日 | 2023-11-01 13:49:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google