要約
自己監視型で解釈可能なエンドツーエンド学習のための新しい機能モジュール型ネットワークである MoNet を紹介します。
MoNet は、潜在誘導型対比損失関数による機能モジュール性を活用することで、タスク レベルの監視を必要とせずに、潜在空間でタスク固有の意思決定プロセスを効率的に学習します。
さらに、私たちの方法には、感覚運動制御のパフォーマンスを損なうことなく、エンドツーエンドの推論の解釈可能性を高めるオンラインの事後説明可能性アプローチが組み込まれています。
実際の屋内環境では、MoNet は効果的な視覚的自律ナビゲーションを実証し、タスク特異性分析においてベースライン モデルを 7% ~ 28% 上回ります。
さらに、知覚顕著性マップと潜在決定ベクトルの事後分析を通じて、ネットワークの解釈可能性を調査します。
これにより、知覚と行動の両方の観点を含む、説明可能な人工知能をロボット学習に組み込むことについての貴重な洞察が得られます。
補足資料は https://sites.google.com/view/monet-lgc で入手できます。
要約(オリジナル)
We introduce MoNet, a novel functionally modular network for self-supervised and interpretable end-to-end learning. By leveraging its functional modularity with a latent-guided contrastive loss function, MoNet efficiently learns task-specific decision-making processes in latent space without requiring task-level supervision. Moreover, our method incorporates an online, post-hoc explainability approach that enhances the interpretability of end-to-end inferences without compromising sensorimotor control performance. In real-world indoor environments, MoNet demonstrates effective visual autonomous navigation, outperforming baseline models by 7% to 28% in task specificity analysis. We further explore the interpretability of our network through post-hoc analysis of perceptual saliency maps and latent decision vectors. This provides valuable insights into the incorporation of explainable artificial intelligence into robotic learning, encompassing both perceptual and behavioral perspectives. Supplementary materials are available at https://sites.google.com/view/monet-lgc.
arxiv情報
| 著者 | Hyunki Seong,David Hyunchul Shim |
| 発行日 | 2024-06-05 13:07:17+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google