Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation

要約

身体化型 AI は、人間の言語の命令を \textit{理解}して実行し、自然言語でコミュニケーションできるロボットの開発を目指しています。
この面で、私たちは、具体化されたロボットが従うための非常に詳細なナビゲーション命令を生成するタスクを研究します。
最近の研究では、一連の画像からステップバイステップの指示を生成することが大幅に進歩していることが実証されていますが、生成された指示は、オブジェクトやランドマークへの参照という点では多様性に欠けています。
既存の話者モデルは、評価指標を回避し、低品質の文章であってもより高いスコアを取得する戦略を学習します。
この研究では、環境の構造的知識と意味的知識の両方を利用してより豊富な命令を生成する命令ジェネレータまたは \textit{Speaker} モデルである SAS (Spatially-Aware Speaker) を提案します。
トレーニングでは、言語評価指標によってもたらされる体系的なバイアスを回避するために、敵対的な設定で報酬学習方法を採用します。
経験的に、私たちの方法は、標準的な指標を使用して評価した既存の命令生成モデルよりも優れています。
私たちのコードは \url{https://github.com/gmuraleekrishna/SAS} で入手できます。

要約(オリジナル)

Embodied AI aims to develop robots that can \textit{understand} and execute human language instructions, as well as communicate in natural languages. On this front, we study the task of generating highly detailed navigational instructions for the embodied robots to follow. Although recent studies have demonstrated significant leaps in the generation of step-by-step instructions from sequences of images, the generated instructions lack variety in terms of their referral to objects and landmarks. Existing speaker models learn strategies to evade the evaluation metrics and obtain higher scores even for low-quality sentences. In this work, we propose SAS (Spatially-Aware Speaker), an instruction generator or \textit{Speaker} model that utilises both structural and semantic knowledge of the environment to produce richer instructions. For training, we employ a reward learning method in an adversarial setting to avoid systematic bias introduced by language evaluation metrics. Empirically, our method outperforms existing instruction generation models, evaluated using standard metrics. Our code is available at \url{https://github.com/gmuraleekrishna/SAS}.

arxiv情報

著者 Muraleekrishna Gopinathan,Martin Masek,Jumana Abu-Khalaf,David Suter
発行日 2024-09-09 13:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.10 パーマリンク