要約
最先端のエンコーダ/デコーダ モデル (例: 機械翻訳 (MT) や自動音声認識 (ASR) 用) は、アトミック ユニットとして構築され、エンドツーエンドでトレーニングされます。
モデルのどのコンポーネントも他のコンポーネントなしで (再) 使用することはできないため、パーツを共有することが不可能になります。
複数のタスクにわたる高リソースのデコーダ。
LegoNN について説明します。これは、微調整を必要とせずにその部分を他のタスクに適用できる方法でエンコーダ/デコーダ アーキテクチャを構築するための手順です。
この再利用性を実現するために、エンコーダ モジュールとデコーダ モジュール間のインターフェイスは、事前定義された個別の語彙にわたる一連の周辺分布に基づいています。
これらの限界値を摂取するための 2 つのアプローチを紹介します。
1 つは微分可能であり、ネットワーク全体にわたる勾配の流れを可能にし、もう 1 つは勾配を分離します。
異なるソース言語の MT タスク間や ASR などの他のタスク間でのデコーダ モジュールの移植性を可能にするために、予期される入力長範囲に一致するようにエンコーダの出力長を動的に調整する長さ制御メカニズムで構成されるモダリティに依存しないエンコーダを導入します。
事前にトレーニングされたデコーダーの。
LegoNN モデルの有効性を実証するためのいくつかの実験を紹介します。ドイツ語-英語 (De-En) MT タスクからトレーニングされた言語生成 LegoNN デコーダー モジュールは、Europarl 英語 ASR とルーマニア語-英語 (Ro) に対して微調整することなく再利用できます。
-En) ベースラインのパフォーマンスと同等またはそれを上回る MT タスク。
微調整後、LegoNN モデルは Ro-En MT タスクを 1.5 BLEU ポイント改善し、Europarl ASR タスクで 12.5% の相対的な WER 削減を達成しました。
このアプローチがどのように一般化されるかを示すために、3 つのモジュールから LegoNN ASR モデルを構成します。各モジュールは、3 つの異なるデータセット上の異なるエンドツーエンドのトレーニング済みモデル内で学習されており、全体で 19.5% の WER 削減を達成します。
要約(オリジナル)
State-of-the-art encoder-decoder models (e.g. for machine translation (MT) or automatic speech recognition (ASR)) are constructed and trained end-to-end as an atomic unit. No component of the model can be (re-)used without the others, making it impossible to share parts, e.g. a high resourced decoder, across tasks. We describe LegoNN, a procedure for building encoder-decoder architectures in a way so that its parts can be applied to other tasks without the need for any fine-tuning. To achieve this reusability, the interface between encoder and decoder modules is grounded to a sequence of marginal distributions over a pre-defined discrete vocabulary. We present two approaches for ingesting these marginals; one is differentiable, allowing the flow of gradients across the entire network, and the other is gradient-isolating. To enable the portability of decoder modules between MT tasks for different source languages and across other tasks like ASR, we introduce a modality agnostic encoder which consists of a length control mechanism to dynamically adapt encoders’ output lengths in order to match the expected input length range of pre-trained decoders. We present several experiments to demonstrate the effectiveness of LegoNN models: a trained language generation LegoNN decoder module from German-English (De-En) MT task can be reused without any fine-tuning for the Europarl English ASR and the Romanian-English (Ro-En) MT tasks, matching or beating the performance of baseline. After fine-tuning, LegoNN models improve the Ro-En MT task by 1.5 BLEU points and achieve 12.5% relative WER reduction on the Europarl ASR task. To show how the approach generalizes, we compose a LegoNN ASR model from three modules — each has been learned within different end-to-end trained models on three different datasets — achieving an overall WER reduction of 19.5%.
arxiv情報
著者 | Siddharth Dalmia,Dmytro Okhonko,Mike Lewis,Sergey Edunov,Shinji Watanabe,Florian Metze,Luke Zettlemoyer,Abdelrahman Mohamed |
発行日 | 2023-07-11 17:43:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google