Switchable Lightweight Anti-symmetric Processing (SLAP) with CNN Outspeeds Data Augmentation by Smaller Sample — Application in Gomoku Reinforcement Learning

要約

データ増強に代わるものとして、本論文では、機械学習の高速化とサンプルサイズの削減のために、SLAPと呼ばれる経験値を強化する方法を提案した。SLAPはモデルに依存しないプロトコル/関数で、異なる変換バリアントが与えられたときに同じ出力を生成する。SLAPは、五目並べゲームの状態を用いた実験において、データ増強と比較してサンプルサイズが8分の1で、畳み込みニューラルネットワーク学習の収束速度を83%向上させた。五目並べ強化学習では、データ増強によるAlphaGo Zero/AlphaZeroアルゴリズムをベースラインとして、SLAPは学習サンプル数を8分の1に減らし、同じ評価者に対して同様の勝率を達成したが、強化学習を高速化できることはまだ明らかにされていない。少なくとも、対称性や特定の変換に不変な領域には、その恩恵が適用されるはずである。今後の課題として、SLAPは、人工知能への小さな一歩として、対称性に不変でないドメインに対して、より説明可能な学習や転移学習を支援する可能性がある。

要約(オリジナル)

To replace data augmentation, this paper proposed a method called SLAP to intensify experience to speed up machine learning and reduce the sample size. SLAP is a model-independent protocol/function to produce the same output given different transformation variants. SLAP improved the convergence speed of convolutional neural network learning by 83% in the experiments with Gomoku game states, with only one eighth of the sample size compared with data augmentation. In reinforcement learning for Gomoku, using AlphaGo Zero/AlphaZero algorithm with data augmentation as baseline, SLAP reduced the number of training samples by a factor of 8 and achieved similar winning rate against the same evaluator, but it was not yet evident that it could speed up reinforcement learning. The benefits should at least apply to domains that are invariant to symmetry or certain transformations. As future work, SLAP may aid more explainable learning and transfer learning for domains that are not invariant to symmetry, as a small step towards artificial general intelligence.

arxiv情報

著者 Chi-Hang Suen,Eduardo Alonso
発行日 2023-02-06 17:40:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク