要約
ターゲットオブジェクトの画像とレセプタクルイメージに基づいて、自由形式のモバイル操作命令を生成する問題を検討します。
従来の画像キャプションモデルでは、アーキテクチャが通常シングルイメージに最適化されているため、適切な命令を生成できません。
この研究では、ターゲットオブジェクトとレセプタクルの両方を処理して、モバイル操作タスクの自由形式の命令文を生成するモデルを提案します。
さらに、学習ベースとN-Gramベースの自動評価メトリックの両方のスコアを報酬として効果的に組み込んだ新しいトレーニング方法を紹介します。
この方法により、モデルは単語と適切な言い換えの間の共起関係を学習できます。
結果は、提案された方法が、標準の自動評価メトリックに関する代表的なマルチモーダル大手言語モデルを含むベースライン方法よりも優れていることを示しています。
さらに、物理的な実験では、私たちの方法を使用して言語命令に関するデータを増強すると、モバイル操作のための既存のマルチモーダル言語理解モデルのパフォーマンスが向上することが明らかになりました。
要約(オリジナル)
We consider the problem of generating free-form mobile manipulation instructions based on a target object image and receptacle image. Conventional image captioning models are not able to generate appropriate instructions because their architectures are typically optimized for single-image. In this study, we propose a model that handles both the target object and receptacle to generate free-form instruction sentences for mobile manipulation tasks. Moreover, we introduce a novel training method that effectively incorporates the scores from both learning-based and n-gram based automatic evaluation metrics as rewards. This method enables the model to learn the co-occurrence relationships between words and appropriate paraphrases. Results demonstrate that our proposed method outperforms baseline methods including representative multimodal large language models on standard automatic evaluation metrics. Moreover, physical experiments reveal that using our method to augment data on language instructions improves the performance of an existing multimodal language understanding model for mobile manipulation.
arxiv情報
著者 | Kei Katsumata,Motonari Kambara,Daichi Yashima,Ryosuke Korekata,Komei Sugiura |
発行日 | 2025-01-28 15:39:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google