要約
Meta Learningは、低リソースのターゲットタスクのパフォーマンスを向上させるために、リソースソースタスクを活用するために広く使用されています。
残念ながら、ほとんどの既存のメタ学習アプローチは、知識転送のターゲットタスクとソースタスクの関連性を無視して、さまざまなソースタスクを等しく扱います。
この問題を軽減するために、低リソースのコモンセンス推論のための補強材ベースのマルチソースメタトランスファー学習フレームワーク(META-RTL)を提案します。
このフレームワークでは、メタ移動学習におけるターゲットタスクへの対応するタスクの寄与を測定するソースタスクの重みを動的に推定する強化ベースのアプローチを提示します。
サンプリングされたターゲットデータにおけるメタモデルの一般的な損失と、ソース固有の時間メタモデルのタスク固有の損失の違いは、報酬として強化学習モジュールのポリシーネットワークに供給されます。
ポリシーネットワークは、メタ学習イテレーション全体のソースタスク重量推定に長期的な依存関係をキャプチャするLSTMに基づいて構築されています。
BertとAlbertの両方を使用して、3つの常識的な推論ベンチマークデータセットのMetaモデルのバックボーンとして提案されたMeta-RTLを評価します。
実験結果は、Meta-RTLが強力なベースラインと以前のタスク選択戦略を大幅に上回り、非常に低いリソースの設定でより大きな改善を達成することを示しています。
要約(オリジナル)
Meta learning has been widely used to exploit rich-resource source tasks to improve the performance of low-resource target tasks. Unfortunately, most existing meta learning approaches treat different source tasks equally, ignoring the relatedness of source tasks to the target task in knowledge transfer. To mitigate this issue, we propose a reinforcement-based multi-source meta-transfer learning framework (Meta-RTL) for low-resource commonsense reasoning. In this framework, we present a reinforcement-based approach to dynamically estimating source task weights that measure the contribution of the corresponding tasks to the target task in the meta-transfer learning. The differences between the general loss of the meta model and task-specific losses of source-specific temporal meta models on sampled target data are fed into the policy network of the reinforcement learning module as rewards. The policy network is built upon LSTMs that capture long-term dependencies on source task weight estimation across meta learning iterations. We evaluate the proposed Meta-RTL using both BERT and ALBERT as the backbone of the meta model on three commonsense reasoning benchmark datasets. Experimental results demonstrate that Meta-RTL substantially outperforms strong baselines and previous task selection strategies and achieves larger improvements on extremely low-resource settings.
arxiv情報
著者 | Yu Fu,Jie He,Yifan Yang,Qun Liu,Deyi Xiong |
発行日 | 2025-04-11 14:38:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google