AssistQ: Affordance-centric Question-driven Task Completion for Egocentric Assistant

要約

ARメガネ/ロボットなどのインテリジェントアシスタントの長年の目標は、「電子レンジを1分間実行するにはどうすればよいか」など、アフォーダンス中心の現実世界のシナリオでユーザーを支援することでした。
ただし、明確なタスク定義と適切なベンチマークはまだありません。
このホワイトペーパーでは、アフォーダンス中心の質問駆動型タスク完了と呼ばれる新しいタスクを定義します。このタスクでは、AIアシスタントが説明ビデオから学習して、ユーザーの視点で段階的なヘルプを提供する必要があります。
このタスクをサポートするために、新しく撮影された100本の教育用ビデオからの531個の質問と回答のサンプルで構成される新しいデータセットであるAssistQを構築しました。
また、AQTCタスクに対処し、AssistQデータセットで検証するために、新しいQuestion-to-Actions(Q2A)モデルを開発しました。
結果は、私たちのモデルがいくつかのVQA関連のベースラインを大幅に上回っていますが、それでも改善の余地が大きいことを示しています。
私たちのタスクとデータセットは、自己中心的なAIアシスタントの開発を前進させることを期待しています。
プロジェクトページはhttps://showlab.github.io/assistq/で入手できます。

要約(オリジナル)

A long-standing goal of intelligent assistants such as AR glasses/robots has been to assist users in affordance-centric real-world scenarios, such as ‘how can I run the microwave for 1 minute?’. However, there is still no clear task definition and suitable benchmarks. In this paper, we define a new task called Affordance-centric Question-driven Task Completion, where the AI assistant should learn from instructional videos to provide step-by-step help in the user’s view. To support the task, we constructed AssistQ, a new dataset comprising 531 question-answer samples from 100 newly filmed instructional videos. We also developed a novel Question-to-Actions (Q2A) model to address the AQTC task and validate it on the AssistQ dataset. The results show that our model significantly outperforms several VQA-related baselines while still having large room for improvement. We expect our task and dataset to advance Egocentric AI Assistant’s development. Our project page is available at: https://showlab.github.io/assistq/.

arxiv情報

著者 Benita Wong,Joya Chen,You Wu,Stan Weixian Lei,Dongxing Mao,Difei Gao,Mike Zheng Shou
発行日 2022-07-20 15:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク