AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots

要約

この論文では、ユーザーのリマインダーと効果的に連携することで、家庭用ロボットの VLM を利用したカスタマイズされたタスク計画を最適化するように設計された新しいフレームワークである AlignBot について説明します。
家庭環境では、リマインダーの量が限られており、多様性があり、マルチモーダルであるため、タスク計画をユーザーのリマインダーと調整することは大きな課題となります。
これらの課題に対処するために、AlignBot は、GPT-4o のアダプターとして機能する、微調整された LLaVA-7B モデルを採用しています。
このアダプター モデルは、パーソナライズされた設定、修正ガイダンス、状況に応じた支援などのさまざまな形式のユーザー リマインダーを、GPT-4o によるカスタマイズされたタスク プランの生成を促す、構造化された命令形式の合図に内部化します。
さらに、AlignBot は、タスク関連の過去の成功を GPT-4o のプロンプトとして選択する動的検索メカニズムを統合し、タスク計画の精度をさらに高めます。
AlignBot の有効性を検証するために、典型的な家庭環境を再現するために実験室内に構築された実際の家庭環境で実験が行われます。
トレーニングと評価には、ボランティアのリマインダーから得られた 1,500 を超えるエントリを含むマルチモーダル データセットが使用されます。
結果は、AlignBot がカスタマイズされたタスク計画を大幅に改善し、ユーザーのリマインダーを解釈して調整することで既存の LLM および VLM を利用したプランナーを上回り、標準の GPT-4o ベースラインの 21.6% と比較して 86.8% の成功率を達成し、65% の改善を反映していることを示しています。
4 倍以上の効果が得られます。
補足資料は https://yding25.com/AlignBot/ から入手できます。

要約(オリジナル)

This paper presents AlignBot, a novel framework designed to optimize VLM-powered customized task planning for household robots by effectively aligning with user reminders. In domestic settings, aligning task planning with user reminders poses significant challenges due to the limited quantity, diversity, and multimodal nature of the reminders. To address these challenges, AlignBot employs a fine-tuned LLaVA-7B model, functioning as an adapter for GPT-4o. This adapter model internalizes diverse forms of user reminders-such as personalized preferences, corrective guidance, and contextual assistance-into structured instruction-formatted cues that prompt GPT-4o in generating customized task plans. Additionally, AlignBot integrates a dynamic retrieval mechanism that selects task-relevant historical successes as prompts for GPT-4o, further enhancing task planning accuracy. To validate the effectiveness of AlignBot, experiments are conducted in real-world household environments, which are constructed within the laboratory to replicate typical household settings. A multimodal dataset with over 1,500 entries derived from volunteer reminders is used for training and evaluation. The results demonstrate that AlignBot significantly improves customized task planning, outperforming existing LLM- and VLM-powered planners by interpreting and aligning with user reminders, achieving 86.8% success rate compared to the vanilla GPT-4o baseline at 21.6%, reflecting a 65% improvement and over four times greater effectiveness. Supplementary materials are available at: https://yding25.com/AlignBot/

arxiv情報

著者 Zhaxizhuoma,Pengan Chen,Ziniu Wu,Jiawei Sun,Dong Wang,Peng Zhou,Nieqing Cao,Yan Ding,Bin Zhao,Xuelong Li
発行日 2024-09-18 12:05:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.RO パーマリンク