MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation

要約

近年、身体型人工知能 (身体型 AI) は急速に進歩していますが、モデルのサイズの増大は、身体型 AI プラットフォームの限られた計算能力と矛盾しています。
この課題に対処するために、私たちは高いモデルのパフォーマンスと実用的な展開性の両方を達成することを目指しています。
具体的には、Embedded AI の中核となるタスクである Vision-and-Language Navigation (VLN) に焦点を当てています。
このペーパーでは、2 段階の知識蒸留フレームワークを紹介し、スチューデント モデル MiniVLN を生成し、軽量モデルの開発における蒸留技術の重要な可能性を示します。
提案された方法は、事前トレーニング段階で詳細な知識を取得し、微調整段階でナビゲーション固有の知識を取得することを目的としています。
私たちの調査結果は、2 段階の蒸留アプローチが、1 段階の蒸留と比較して、教師モデルと生徒モデルの間のパフォーマンスのギャップを狭めるのに効果的であることを示しています。
公開されている R2R および REVERIE ベンチマークでは、MiniVLN は教師モデルと同等のパフォーマンスを達成していますが、教師モデルのパラメーター数はわずか約 12% です。

要約(オリジナル)

In recent years, Embodied Artificial Intelligence (Embodied AI) has advanced rapidly, yet the increasing size of models conflicts with the limited computational capabilities of Embodied AI platforms. To address this challenge, we aim to achieve both high model performance and practical deployability. Specifically, we focus on Vision-and-Language Navigation (VLN), a core task in Embodied AI. This paper introduces a two-stage knowledge distillation framework, producing a student model, MiniVLN, and showcasing the significant potential of distillation techniques in developing lightweight models. The proposed method aims to capture fine-grained knowledge during the pretraining phase and navigation-specific knowledge during the fine-tuning phase. Our findings indicate that the two-stage distillation approach is more effective in narrowing the performance gap between the teacher model and the student model compared to single-stage distillation. On the public R2R and REVERIE benchmarks, MiniVLN achieves performance on par with the teacher model while having only about 12% of the teacher model’s parameter count.

arxiv情報

著者 Junyou Zhu,Yanyuan Qiao,Siqi Zhang,Xingjian He,Qi Wu,Jing Liu
発行日 2024-09-27 14:54:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク