On the importance of data collection for training general goal-reaching policies

要約

ML の最近の進歩は、モデルが利用できるデータの量が、ハイパフォーマンスの主要なボトルネックの 1 つであることを示唆しています。
言語ベースのタスクの場合、トレーニングするための合理的に一貫性のあるデータがほぼ無制限に存在しますが、これは通常、特に新しい環境を扱う場合の強化学習には当てはまりません。
実際、比較的些細な連続環境でさえ、ほぼ無限の数の状態がありますが、単にランダムな状態とアクションをサンプリングするだけでは、潜在的なダウンストリーム タスクにとって興味深いまたは有用な遷移を提供しない可能性があります。
ダウンストリーム タスクを示さずに MDP のみが与えられた場合、大量の有用なデータをどのように生成する必要がありますか?
データの量と質は、一般的なコントローラーのパフォーマンスを本当に変革しますか?
これらの質問の両方に答えることを提案します。
まず、教師なしの原則的な探索方法である ChronoGEM を導入します。これは、達成可能な状態の多様体を均一にカバーすることを目的としています。これは、事前のタスク情報がない場合に最も合理的な目標であると考えています。
第二に、下流の目標達成ポリシーのトレーニングに対するデータ量とデータ品質の両方の影響を調査し、大量のデータと高品質のデータの両方が一般的なコントローラーをトレーニングするために不可欠であることを示します。
ヒューマノイドを含む多数の連続制御の実施形態で多数のポーズを達成できる達成ポリシー。

要約(オリジナル)

Recent advances in ML suggest that the quantity of data available to a model is one of the primary bottlenecks to high performance. Although for language-based tasks there exist almost unlimited amounts of reasonably coherent data to train from, this is generally not the case for Reinforcement Learning, especially when dealing with a novel environment. In effect, even a relatively trivial continuous environment has an almost limitless number of states, but simply sampling random states and actions will likely not provide transitions that are interesting or useful for any potential downstream task. How should one generate massive amounts of useful data given only an MDP with no indication of downstream tasks? Are the quantity and quality of data truly transformative to the performance of a general controller? We propose to answer both of these questions. First, we introduce a principled unsupervised exploration method, ChronoGEM, which aims to achieve uniform coverage over the manifold of achievable states, which we believe is the most reasonable goal given no prior task information. Secondly, we investigate the effects of both data quantity and data quality on the training of a downstream goal-achievement policy, and show that both large quantities and high-quality of data are essential to train a general controller: a high-precision pose-achievement policy capable of attaining a large number of poses over numerous continuous control embodiments including humanoid.

arxiv情報

著者 Alexis Jacq,Manu Orsini,Gabriel Dulac-Arnold,Olivier Pietquin,Matthieu Geist,Olivier Bachem
発行日 2023-02-20 14:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク