要約
タスクの達成に直面したとき、人間の専門家は意図的な行動を示します。
彼らの独自の意図が計画と決定を形成し、その結果、専門家が同じタスクを達成するために多様な行動を示します。
現実世界で遭遇する不確実性とその合理性の限界により、専門家が意図を調整することがあり、それがタスク実行中の行動に影響を与えます。
本稿では、こうした専門家の多様な意図に基づく行動を模倣するための新しい模倣学習アルゴリズムである IDIL を紹介します。
私たちのアプローチは、異種のデモンストレーションから専門家の意図を反復的に推定し、それを使用して彼らの行動の意図を認識したモデルを学習します。
現代のアプローチとは異なり、IDIL は、敵対的トレーニング (関連技術の主力) に伴う複雑さと欠点を回避しながら、高次元の状態表現を使用して逐次的なタスクに対処することができます。
私たちの経験的結果は、IDIL によって生成されたモデルが、タスクのパフォーマンスの指標において、最近の模倣学習ベンチマークによって生成されたモデルと一致するか、それを上回っていることを示唆しています。
さらに、IDIL は生成モデルを作成するため、人間とエージェントのインタラクションに重要な意図推論メトリクスにおいて優れたパフォーマンスを発揮し、幅広い専門家の行動を適切に捕捉します。
要約(オリジナル)
When faced with accomplishing a task, human experts exhibit intentional behavior. Their unique intents shape their plans and decisions, resulting in experts demonstrating diverse behaviors to accomplish the same task. Due to the uncertainties encountered in the real world and their bounded rationality, experts sometimes adjust their intents, which in turn influences their behaviors during task execution. This paper introduces IDIL, a novel imitation learning algorithm to mimic these diverse intent-driven behaviors of experts. Iteratively, our approach estimates expert intent from heterogeneous demonstrations and then uses it to learn an intent-aware model of their behavior. Unlike contemporary approaches, IDIL is capable of addressing sequential tasks with high-dimensional state representations, while sidestepping the complexities and drawbacks associated with adversarial training (a mainstay of related techniques). Our empirical results suggest that the models generated by IDIL either match or surpass those produced by recent imitation learning benchmarks in metrics of task performance. Moreover, as it creates a generative model, IDIL demonstrates superior performance in intent inference metrics, crucial for human-agent interactions, and aptly captures a broad spectrum of expert behaviors.
arxiv情報
著者 | Sangwon Seo,Vaibhav Unhelkar |
発行日 | 2024-04-25 19:18:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google