MAEA: Multimodal Attribution for Embodied AI

要約

身体化された AI のマルチモーダルな知覚を理解することは未解決の問題です。そのような入力には、タスクに対して高度に補完的な情報や冗長な情報が含まれる可能性があるためです。
マルチモーダル政策に関連する方向性は、融合層における各モダリティの世界的な傾向を理解することです。
この目的を達成するために、ALFRED データセットでトレーニングされたさまざまなポリシー間で、視覚、言語、および以前のアクション入力の属性を解きほぐします。
アトリビューション分析を利用すると、障害シナリオをランク付けしてグループ化し、モデリングとデータセットのバイアスを調査し、マルチモーダル EAI ポリシーの堅牢性とユーザーの信頼を展開前に批判的に分析できます。
私たちは、微分可能な政策のモダリティごとにグローバルな帰属を計算するフレームワークである MAEA を紹介します。
さらに、アトリビューションにより、EAI ポリシーにおける言語およびビジュアル アトリビューションの下位レベルの動作分析がどのように可能になるかを示します。

要約(オリジナル)

Understanding multimodal perception for embodied AI is an open question because such inputs may contain highly complementary as well as redundant information for the task. A relevant direction for multimodal policies is understanding the global trends of each modality at the fusion layer. To this end, we disentangle the attributions for visual, language, and previous action inputs across different policies trained on the ALFRED dataset. Attribution analysis can be utilized to rank and group the failure scenarios, investigate modeling and dataset biases, and critically analyze multimodal EAI policies for robustness and user trust before deployment. We present MAEA, a framework to compute global attributions per modality of any differentiable policy. In addition, we show how attributions enable lower-level behavior analysis in EAI policies for language and visual attributions.

arxiv情報

著者 Vidhi Jain,Jayant Sravan Tamarapalli,Sahiti Yerramilli,Yonatan Bisk
発行日 2023-07-25 22:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク