要約
目標指向の計画、つまりエージェントを現在の状態から事前定義された目標に移行させる一連のアクションを予測することは、ユーザーの日常的な手続きタスクを支援するインテリジェント アシスタントを開発するために重要です。
この問題は、時間的および階層的なタスク構造に関する包括的な知識と、推論と計画における強力な能力が必要なため、重大な課題を抱えています。
これを達成するために、これまでの研究は通常、ターゲット データセットに対する広範なトレーニングに依存していましたが、その結果、多くの場合、データセットに重大な偏りが生じ、目に見えないタスクへの一般化が欠如してしまいます。
この作業では、教育ビデオでゼロショットまたは少数ショットの目標指向の計画を立てるために設計された統合フレームワークである VidAssist を紹介します。
VidAssist は、アクション プランの生成と評価のためのナレッジ ベースと評価ツールの両方として大規模言語モデル (LLM) を活用し、小規模で多様性の低いデータセットから手順的な知識を取得するという課題を克服します。
さらに、VidAssist は、最適な計画を生成するために幅優先検索アルゴリズムを採用しており、目標指向の計画用に設計された価値関数の複合を利用して、各ステップで予測されるアクションを評価します。
広範な実験により、VidAssist がさまざまな目標指向の計画セットアップ (VPA) や手順計画 (PP) などのさまざまな目標指向の計画セットアップに統一フレームワークを提供し、ゼロショットおよび少数ショットのセットアップで顕著なパフォーマンスを達成することが実証されました。
具体的には、私たちの少数ショット モデルは、4 つの将来のアクションを予測しながら、COIN データセット上の VPA タスクで +7.7% および +4.81% PP タスクで、以前の完全に監視された最先端の手法を上回りました。
コードとモデルは https://sites.google.com/view/vidassist で公開されています。
要約(オリジナル)
Goal-oriented planning, or anticipating a series of actions that transition an agent from its current state to a predefined objective, is crucial for developing intelligent assistants aiding users in daily procedural tasks. The problem presents significant challenges due to the need for comprehensive knowledge of temporal and hierarchical task structures, as well as strong capabilities in reasoning and planning. To achieve this, prior work typically relies on extensive training on the target dataset, which often results in significant dataset bias and a lack of generalization to unseen tasks. In this work, we introduce VidAssist, an integrated framework designed for zero/few-shot goal-oriented planning in instructional videos. VidAssist leverages large language models (LLMs) as both the knowledge base and the assessment tool for generating and evaluating action plans, thus overcoming the challenges of acquiring procedural knowledge from small-scale, low-diversity datasets. Moreover, VidAssist employs a breadth-first search algorithm for optimal plan generation, in which a composite of value functions designed for goal-oriented planning is utilized to assess the predicted actions at each step. Extensive experiments demonstrate that VidAssist offers a unified framework for different goal-oriented planning setups, e.g., visual planning for assistance (VPA) and procedural planning (PP), and achieves remarkable performance in zero-shot and few-shot setups. Specifically, our few-shot model outperforms the prior fully supervised state-of-the-art method by +7.7% in VPA and +4.81% PP task on the COIN dataset while predicting 4 future actions. Code, and models are publicly available at https://sites.google.com/view/vidassist.
arxiv情報
著者 | Md Mohaiminul Islam,Tushar Nagarajan,Huiyu Wang,Fu-Jen Chu,Kris Kitani,Gedas Bertasius,Xitong Yang |
発行日 | 2024-09-30 17:57:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google