要約
この論文では、シーケンス モデリングにおける長期記憶学習のためのエラー メトリックの選択について研究します。
平均絶対誤差/二乗誤差など、一般的に使用される誤差における短期記憶への偏りを調べます。
私たちの調査結果は、時間的に正に重み付けされたすべての誤差は、線形関数の学習において短期記憶に偏っていることを示しています。
このバイアスを軽減し、長期記憶学習を改善するために、時間的に再スケールされた誤差の使用を提案します。
このアプローチは、短期記憶への偏りを軽減することに加えて、勾配消失の問題も軽減できます。
私たちは、主張を検証するために、さまざまな長時間記憶タスクとシーケンス モデルについて数値実験を実施します。
数値結果は、効果的な長期記憶学習にとって、適切に時間的に再スケールされた誤差の重要性を裏付けています。
私たちの知る限り、これはシーケンスモデリングにおける短期記憶に対するさまざまなエラーの記憶バイアスを定量的に分析した最初の研究です。
要約(オリジナル)
This paper studies the error metric selection for long-term memory learning in sequence modelling. We examine the bias towards short-term memory in commonly used errors, including mean absolute/squared error. Our findings show that all temporally positive-weighted errors are biased towards short-term memory in learning linear functionals. To reduce this bias and improve long-term memory learning, we propose the use of a temporally rescaled error. In addition to reducing the bias towards short-term memory, this approach can also alleviate the vanishing gradient issue. We conduct numerical experiments on different long-memory tasks and sequence models to validate our claims. Numerical results confirm the importance of appropriate temporally rescaled error for effective long-term memory learning. To the best of our knowledge, this is the first work that quantitatively analyzes different errors’ memory bias towards short-term memory in sequence modelling.
arxiv情報
著者 | Shida Wang,Zhanglu Yan |
発行日 | 2023-07-21 09:55:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google