Monotonic Location Attention for Length Generalization

要約

私たちは、アルゴリズムタスクにおける長さの一般化を可能にするために、seq2seq ネットワークで位置ベースのクロスアテンションを利用するさまざまな方法を検討します。
元のエンコード表現と逆エンコード表現を補間するという単純なアプローチと、相対的な注意を組み合わせることで、一般に取り組むのが難しかった前方および逆引きの両方のルックアップ タスクまたはコピー タスクのほぼ完全な長さの一般化が可能になることを示します。
また、理想的な注目位置の相対距離がタイムステップとともに変化する、より困難な診断タスクも考案しました。
このような設定では、比較的注意を払った単純な補間トリックでは十分ではありません。
私たちは、Dubois らの研究に基づいて構築された位置注意の新しい変種を紹介します。
(2020) 新しい診断タスクに対処します。
また、SCAN (Lake & Baroni、2018) および CFQ (Keysers et al.、2020) における長さの一般化に対するアプローチの利点も示します。
私たちのコードは GitHub で入手できます。

要約(オリジナル)

We explore different ways to utilize position-based cross-attention in seq2seq networks to enable length generalization in algorithmic tasks. We show that a simple approach of interpolating the original and reversed encoded representations combined with relative attention allows near-perfect length generalization for both forward and reverse lookup tasks or copy tasks that had been generally hard to tackle. We also devise harder diagnostic tasks where the relative distance of the ideal attention position varies with timestep. In such settings, the simple interpolation trick with relative attention is not sufficient. We introduce novel variants of location attention building on top of Dubois et al. (2020) to address the new diagnostic tasks. We also show the benefits of our approaches for length generalization in SCAN (Lake & Baroni, 2018) and CFQ (Keysers et al., 2020). Our code is available on GitHub.

arxiv情報

著者 Jishnu Ray Chowdhury,Cornelia Caragea
発行日 2023-05-31 16:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク