AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots

要約

このペーパーでは、ユーザーのリマインダーと効果的に整合することにより、家庭用ロボットのVLM駆動のカスタマイズされたタスク計画を最適化するように設計された新しいフレームワークであるAlignbotを紹介します。
国内の設定では、タスク計画をユーザーリマインダーと調整することは、リマインダーの量、多様性、マルチモーダルの性質が限られているため、大きな課題をもたらします。
これらの課題に対処するために、AlignbotはGPT-4Oのアダプターとして機能する微調整されたLLAVA-7Bモデルを採用しています。
このアダプターモデルは、カスタマイズされたタスク計画を生成する際にGPT-4oを促す構造化された命令形成されたキューにパーソナライズされた好み、是正ガイダンス、およびコンテキスト支援 – コンテキスト支援など、さまざまなフォームのユーザーリマインダーを内部化します。
さらに、Alignbotは、GPT-4oのプロンプトとしてタスク関連の歴史的成功を選択する動的検索メカニズムを統合し、タスク計画の精度をさらに高めます。
Alignbotの有効性を検証するために、実験は実世界の家庭環境で行われ、実験室内で典型的な家庭用環境を複製します。
ボランティアリマインダーから派生した1,500を超えるエントリを備えたマルチモーダルデータセットがトレーニングと評価に使用されます。
結果は、Alignbotがカスタマイズされたタスク計画を大幅に改善し、ユーザーリマインダーと解釈および整合することにより、既存のLLMおよびVLMを搭載したプランナーを上回り、バニラGPT-4Oベースラインと比較して86.8%の成功率を達成することを示しています。
補足資料は、https://yding25.com/alignbot/で入手できます。

要約(オリジナル)

This paper presents AlignBot, a novel framework designed to optimize VLM-powered customized task planning for household robots by effectively aligning with user reminders. In domestic settings, aligning task planning with user reminders poses significant challenges due to the limited quantity, diversity, and multimodal nature of the reminders. To address these challenges, AlignBot employs a fine-tuned LLaVA-7B model, functioning as an adapter for GPT-4o. This adapter model internalizes diverse forms of user reminders-such as personalized preferences, corrective guidance, and contextual assistance-into structured instruction-formatted cues that prompt GPT-4o in generating customized task plans. Additionally, AlignBot integrates a dynamic retrieval mechanism that selects task-relevant historical successes as prompts for GPT-4o, further enhancing task planning accuracy. To validate the effectiveness of AlignBot, experiments are conducted in real-world household environments, which are constructed within the laboratory to replicate typical household settings. A multimodal dataset with over 1,500 entries derived from volunteer reminders is used for training and evaluation. The results demonstrate that AlignBot significantly improves customized task planning, outperforming existing LLM- and VLM-powered planners by interpreting and aligning with user reminders, achieving 86.8% success rate compared to the vanilla GPT-4o baseline at 21.6%, reflecting a 65% improvement and over four times greater effectiveness. Supplementary materials are available at: https://yding25.com/AlignBot/

arxiv情報

著者 Zhaxizhuoma Zhaxizhuoma,Pengan Chen,Ziniu Wu,Jiawei Sun,Dong Wang,Peng Zhou,Nieqing Cao,Yan Ding,Bin Zhao,Xuelong Li
発行日 2025-03-21 04:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.RO パーマリンク