Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for Navigation Instruction Generation


ナビゲーション命令生成用の新しいスピーカー モデル \textsc{Kefa} を導入します。
視覚と言語ナビゲーションの既存のスピーカー モデルは、異なる環境間での視覚特徴のドメイン ギャップが大きく、時間的接地能力が不十分であるという問題に悩まされています。
さらに、方向フレーズの正確さを意識したナビゲーション指示評価のための新しい指標 SPICE-D を提案します。
R2R および UrbanWalk データセットの実験結果は、提案された KEFA スピーカーが屋内と屋外の両方のシーンで最先端の命令生成パフォーマンスを達成することを示しています。


We introduce a novel speaker model \textsc{Kefa} for navigation instruction generation. The existing speaker models in Vision-and-Language Navigation suffer from the large domain gap of vision features between different environments and insufficient temporal grounding capability. To address the challenges, we propose a Knowledge Refinement Module to enhance the feature representation with external knowledge facts, and an Adaptive Temporal Alignment method to enforce fine-grained alignment between the generated instructions and the observation sequences. Moreover, we propose a new metric SPICE-D for navigation instruction evaluation, which is aware of the correctness of direction phrases. The experimental results on R2R and UrbanWalk datasets show that the proposed KEFA speaker achieves state-of-the-art instruction generation performance for both indoor and outdoor scenes.


著者 Haitian Zeng,Xiaohan Wang,Wenguan Wang,Yi Yang
発行日 2023-07-25 09:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク