要約
サブワードのトークン化は、ニューラル機械翻訳 (NMT) モデルで語彙を構築するための一般的な方法です。
しかし、タスクがますます複雑になるにつれて、その欠点が明らかになりました。
まず、語彙は一度学習すると修正できないため、新しい単語に適応することが困難になります。
第 2 に、多言語翻訳では、言語間のデータ量の不均衡が語彙にまで広がり、リソースの少ない言語が含まれる翻訳が悪化します。
バイトベースのトークン化はこれらの問題に対処しますが、バイトベースのモデルは、UTF-8 バイト シーケンスに固有の低い情報密度に悩まされます。
以前の研究では、ローカルのコンテキスト化を通じてトークンのセマンティクスを強化しましたが、入力に基づいて適切なコンテキスト化スコープを選択できませんでした。
その結果、我々は、さまざまな隠れ状態の次元にわたるさまざまなスケールの文脈化された情報を学習する、マルチスケール コンテキスト化 (MSC) 手法を提案します。
次に、アテンション モジュールを活用して、マルチスケールのコンテキスト化された情報を動的に統合します。
実験によれば、MSC は、多言語シナリオとドメイン外シナリオの両方で、サブワード ベースの方法や他のバイト ベースの方法よりも大幅に優れたパフォーマンスを示します。
コードは https://github.com/ictnlp/Multiscale-Contextualization にあります。
要約(オリジナル)
Subword tokenization is a common method for vocabulary building in Neural Machine Translation (NMT) models. However, increasingly complex tasks have revealed its disadvantages. First, a vocabulary cannot be modified once it is learned, making it hard to adapt to new words. Second, in multilingual translation, the imbalance in data volumes across different languages spreads to the vocabulary, exacerbating translations involving low-resource languages. While byte-based tokenization addresses these issues, byte-based models struggle with the low information density inherent in UTF-8 byte sequences. Previous works enhance token semantics through local contextualization but fail to select an appropriate contextualizing scope based on the input. Consequently, we propose the Multi-Scale Contextualization (MSC) method, which learns contextualized information of varying scales across different hidden state dimensions. It then leverages the attention module to dynamically integrate the multi-scale contextualized information. Experiments show that MSC significantly outperforms subword-based and other byte-based methods in both multilingual and out-of-domain scenarios. Code can be found in https://github.com/ictnlp/Multiscale-Contextualization.
arxiv情報
著者 | Langlin Huang,Yang Feng |
発行日 | 2024-05-29 17:19:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google