Learning Transductions and Alignments with RNN Seq2seq Models

要約

この論文では、同一性、反転、全重複、二次コピーという 4 つの変換タスクを学習する際の Recurrent-Neural-Network sequence to sequence (RNN seq2seq) モデルの機能を研究しています。
これらの変換は、伝統的に有限状態トランスデューサーの下でよく研究されており、複雑さが増していると考えられています。
RNN seq2seq モデルは、基礎となる関数を学習するのではなく、トレーニング データまたは分布データに適合するマッピングのみを近似できることがわかりました。
注意を払うと学習がより効率的かつ堅牢になりますが、分布外の一般化の制限は克服されません。
我々は、アテンションレス RNN seq2seq モデルの 4 つのタスクを学習するための新しい複雑さの階層を確立します。これは、文字列変換ではなく、形式言語の複雑さの階層の観点から理解できます。
RNN のバリアントも結果に影響します。
特に、Simple RNN seq2seq モデルは入力長をカウントできないことを示します。

要約(オリジナル)

The paper studies the capabilities of Recurrent-Neural-Network sequence to sequence (RNN seq2seq) models in learning four transduction tasks: identity, reversal, total reduplication, and quadratic copying. These transductions are traditionally well studied under finite state transducers and attributed with increasing complexity. We find that RNN seq2seq models are only able to approximate a mapping that fits the training or in-distribution data, instead of learning the underlying functions. Although attention makes learning more efficient and robust, it does not overcome the out-of-distribution generalization limitation. We establish a novel complexity hierarchy for learning the four tasks for attention-less RNN seq2seq models, which may be understood in terms of the complexity hierarchy of formal languages, instead of string transductions. RNN variants also play a role in the results. In particular, we show that Simple RNN seq2seq models cannot count the input length.

arxiv情報

著者 Zhengxiang Wang
発行日 2023-06-15 14:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク