要約
この技術レポートでは、ICML 2024 の EgoPlan チャレンジに対する当社のソリューションを紹介します。現実世界の自己中心的なタスク計画の問題に対処するために、長期記憶の抽出、コンテキストを意識した計画、
もう 1 つは、EPD と呼ばれる複数反復の決定です。
タスクの目標、タスクの進捗状況、および現在の観察を考慮すると、抽出モデルはまず進捗ビデオからタスク関連の記憶情報を抽出し、複雑な長いビデオを要約された記憶情報に変換します。
次に、計画モデルは、記憶情報のコンテキストと現在の観察からの詳細な視覚情報を組み合わせて、次のアクションを予測します。
最後に、複数の反復による意思決定を通じて、意思決定モデルはタスクの状況と現在の状態を包括的に理解して、最も現実的な計画決定を行います。
EgoPlan-Test セットでは、EPD は 1,584 の自己中心的なタスク計画の質問に対して 53.85% の計画精度を達成しました。
すべてのコードは https://github.com/Kkskkskskr/EPD で利用できるようにしました。
要約(オリジナル)
In this technical report, we present our solution for the EgoPlan Challenge in ICML 2024. To address the real-world egocentric task planning problem, we introduce a novel planning framework which comprises three stages: long-term memory Extraction, context-awared Planning, and multi-iteration Decision, named EPD. Given the task goal, task progress, and current observation, the extraction model first extracts task-relevant memory information from the progress video, transforming the complex long video into summarized memory information. The planning model then combines the context of the memory information with fine-grained visual information from the current observation to predict the next action. Finally, through multi-iteration decision-making, the decision model comprehensively understands the task situation and current state to make the most realistic planning decision. On the EgoPlan-Test set, EPD achieves a planning accuracy of 53.85% over 1,584 egocentric task planning questions. We have made all codes available at https://github.com/Kkskkkskr/EPD .
arxiv情報
著者 | Letian Shi,Qi Lv,Xiang Deng,Liqiang Nie |
発行日 | 2024-07-28 15:14:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google