要約
選択的体験再生は、生涯学習と深層強化学習を統合するための一般的な戦略です。
選択的な経験の再生は、壊滅的な忘却を避けるために、以前のタスクから選択された経験を繰り返すことを目的としています。
さらに、選択的体験再生ベースの手法はモデルにとらわれず、さまざまなモデル間で体験を共有できます。
ただし、以前のすべてのタスクからの経験を保存すると、タスクの数が増えるにつれて、選択的な経験の再生を使用した生涯学習が非常に高価になり、実用的ではなくなります。
そのために、選択的な経験リプレイ用に保存された経験リプレイ バッファを圧縮するための、報酬分配を維持するコアセット圧縮手法を提案します。
心室の局在化のタスクについては脳腫瘍セグメンテーション (BRATS) データセットで、左膝蓋骨、左腎臓、右転子、左肺、および脾臓の局在化については全身 MRI でコアセット圧縮技術を評価しました。
一連の 10 の異なる脳 MR イメージング環境でトレーニングされたコアセットの生涯学習モデルは、10 倍の圧縮比で 12.93 の平均ピクセル エラー距離で心室の位置を特定する優れたパフォーマンスを示しました。
比較すると、従来の生涯学習モデルは、10.87 の平均ピクセル距離で心室をローカライズしました。
同様に、全身 MRI でトレーニングされたコアセットの生涯学習モデルは、すべてのランドマークについて、10 倍に圧縮されたコアセットの生涯学習モデルと従来の生涯学習モデルの間に有意差 (p=0.28) を示しませんでした。
すべてのランドマークにわたる 10 倍圧縮モデルの平均ピクセル距離は、従来の生涯学習モデルの 19.24 と比較して、25.30 でした。
私たちの結果は、パフォーマンスを大幅に低下させることなくエクスペリエンスを圧縮するためのコアセットベースの ERB 圧縮方法の可能性を示しています。
要約(オリジナル)
Selective experience replay is a popular strategy for integrating lifelong learning with deep reinforcement learning. Selective experience replay aims to recount selected experiences from previous tasks to avoid catastrophic forgetting. Furthermore, selective experience replay based techniques are model agnostic and allow experiences to be shared across different models. However, storing experiences from all previous tasks make lifelong learning using selective experience replay computationally very expensive and impractical as the number of tasks increase. To that end, we propose a reward distribution-preserving coreset compression technique for compressing experience replay buffers stored for selective experience replay. We evaluated the coreset compression technique on the brain tumor segmentation (BRATS) dataset for the task of ventricle localization and on the whole-body MRI for localization of left knee cap, left kidney, right trochanter, left lung, and spleen. The coreset lifelong learning models trained on a sequence of 10 different brain MR imaging environments demonstrated excellent performance localizing the ventricle with a mean pixel error distance of 12.93 for the compression ratio of 10x. In comparison, the conventional lifelong learning model localized the ventricle with a mean pixel distance of 10.87. Similarly, the coreset lifelong learning models trained on whole-body MRI demonstrated no significant difference (p=0.28) between the 10x compressed coreset lifelong learning models and conventional lifelong learning models for all the landmarks. The mean pixel distance for the 10x compressed models across all the landmarks was 25.30, compared to 19.24 for the conventional lifelong learning models. Our results demonstrate that the potential of the coreset-based ERB compression method for compressing experiences without a significant drop in performance.
arxiv情報
著者 | Guangyao Zheng,Samson Zhou,Vladimir Braverman,Michael A. Jacobs,Vishwa S. Parekh |
発行日 | 2023-02-22 17:27:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google