AMaze: An intuitive benchmark generator for fast prototyping of generalizable agents

要約

エージェントをトレーニングする従来のアプローチでは、一般的に、ロボットの移動やコンピューター ビジョンなどのさまざまなタスクを解決するために、複雑さを最小限に抑えた単一の決定論的な環境が必要でした。
ただし、静的環境でトレーニングされたエージェントには汎化機能が欠けており、より広範なシナリオでの可能性が制限されます。
したがって、最近のベンチマークは、確率的ノイズ、単純な順列、またはまったく異なる設定を提供するなど、複数の環境に依存することがよくあります。
実際には、そのようなコレクションは主に、コストのかかる人間が設計したプロセスや、乱数発生器の多用によって生じます。
この研究では、身体化されたエージェントが任意の複雑さと欺瞞性の視覚的兆候を解釈して迷路をナビゲートする必要がある新しいベンチマーク ジェネレーターである AMaze を紹介します。
このジェネレーターは、機能固有の迷路を簡単に生成し、その結果得られるエージェントの戦略を直感的に理解することで、人間との対話を促進します。
概念実証として、欺瞞性が制限された、単純で完全に離散的なケースでジェネレーターの機能を実証します。
エージェントは 3 つの異なるレジーム (ワンショット、スキャフォールディング、インタラクティブ) の下でトレーニングされました。結果は、後者の 2 つのケースが汎化能力の点で直接トレーニングよりも優れていることを示しました。
実際、汎化メトリクス、トレーニング体制、アルゴリズムの組み合わせに応じて、中央値のゲインは 50% から 100% の範囲であり、対話型トレーニングを通じて最大のパフォーマンスが達成されました。これにより、制御可能な人間参加型ベンチマークの利点が実証されました。
ジェネレータ。

要約(オリジナル)

Traditional approaches to training agents have generally involved a single, deterministic environment of minimal complexity to solve various tasks such as robot locomotion or computer vision. However, agents trained in static environments lack generalization capabilities, limiting their potential in broader scenarios. Thus, recent benchmarks frequently rely on multiple environments, for instance, by providing stochastic noise, simple permutations, or altogether different settings. In practice, such collections result mainly from costly human-designed processes or the liberal use of random number generators. In this work, we introduce AMaze, a novel benchmark generator in which embodied agents must navigate a maze by interpreting visual signs of arbitrary complexities and deceptiveness. This generator promotes human interaction through the easy generation of feature-specific mazes and an intuitive understanding of the resulting agents’ strategies. As a proof-of-concept, we demonstrate the capabilities of the generator in a simple, fully discrete case with limited deceptiveness. Agents were trained under three different regimes (one-shot, scaffolding, interactive), and the results showed that the latter two cases outperform direct training in terms of generalization capabilities. Indeed, depending on the combination of generalization metric, training regime, and algorithm, the median gain ranged from 50% to 100% and maximal performance was achieved through interactive training, thereby demonstrating the benefits of a controllable human-in-the-loop benchmark generator.

arxiv情報

著者 Kevin Godin-Dubois,Karine Miras,Anna V. Kononova
発行日 2024-11-20 06:47:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク