要約
堅牢な言語教育エージェントをトレーニングするための高品質のデータを作成することは、身体型 AI における長期にわたる課題です。
この論文では、命令ジェネレータとナビゲータの 2 つのモデル間の連携を通じてデータ プールを反復的に洗練することにより、高品質かつ大規模なナビゲーション命令と軌道のペアを生成する自己洗練データ フライホイール (SRDF) を紹介します。
人間参加型の注釈。
具体的には、SRDF は、まずベース ジェネレーターを使用してベース ナビゲーターをトレーニングするための初期データ プールを作成し、続いてトレーニングされたナビゲーターを適用してデータ プールをフィルターします。
これにより、より優れたジェネレーターをトレーニングするためのより忠実度の高いデータが得られ、その結果、次のラウンドのナビゲーターをトレーニングするためのより高品質なデータが生成されます。
このようなフライホイールはデータの自己洗練プロセスを確立し、大規模な言語ガイド付きナビゲーション学習用に継続的に改善された非常に効果的なデータセットを生成します。
私たちの実験では、フライホイールを数回回転させた後、ナビゲーターのパフォーマンス境界がクラシック R2R テスト セットの SPL 70% から 78% に上昇し、初めて人間のパフォーマンス (76%) を超えたことが実証されました。
一方、このプロセスにより、SPICE が 23.5 から 26.2 に増加したことから明らかなように、以前のすべての VLN 命令生成方法よりも優れたジェネレーターが得られます。
最後に、環境と命令の多様性の増加によるメソッドのスケーラビリティと、さまざまな下流ナビゲーション タスクにわたる事前トレーニングされたナビゲータの一般化能力を実証し、すべてのケースで最先端のメソッドを大幅に上回ります。
要約(オリジナル)
Creating high-quality data for training robust language-instructed agents is a long-lasting challenge in embodied AI. In this paper, we introduce a Self-Refining Data Flywheel (SRDF) that generates high-quality and large-scale navigational instruction-trajectory pairs by iteratively refining the data pool through the collaboration between two models, the instruction generator and the navigator, without any human-in-the-loop annotation. Specifically, SRDF starts with using a base generator to create an initial data pool for training a base navigator, followed by applying the trained navigator to filter the data pool. This leads to higher-fidelity data to train a better generator, which can, in turn, produce higher-quality data for training the next-round navigator. Such a flywheel establishes a data self-refining process, yielding a continuously improved and highly effective dataset for large-scale language-guided navigation learning. Our experiments demonstrate that after several flywheel rounds, the navigator elevates the performance boundary from 70% to 78% SPL on the classic R2R test set, surpassing human performance (76%) for the first time. Meanwhile, this process results in a superior generator, evidenced by a SPICE increase from 23.5 to 26.2, better than all previous VLN instruction generation methods. Finally, we demonstrate the scalability of our method through increasing environment and instruction diversity, and the generalization ability of our pre-trained navigator across various downstream navigation tasks, surpassing state-of-the-art methods by a large margin in all cases.
arxiv情報
| 著者 | Zun Wang,Jialu Li,Yicong Hong,Songze Li,Kunchang Li,Shoubin Yu,Yi Wang,Yu Qiao,Yali Wang,Mohit Bansal,Limin Wang |
| 発行日 | 2024-12-11 15:32:24+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google