要約
生成モデルの能力の向上は、言語を超えたモダリティを活用するマルチモーダル仮想アシスタントの構築に役立ちます。
人間が複数段階のタスクを実行しているのを観察することで、実行中のアクションやタスクを状況認識できるアシスタントを構築し、この理解に基づいて支援に対応できるようにすることができます。
この論文では、オンラインのビジュアル ストリーム (ユーザーの画面共有やビデオ録画など) を活用し、次のようなユーザーのクエリにリアルタイムで応答する、マルチモーダル大規模言語モデルを備えたコンテキスト認識型命令タスク アシスタント (InsTALL) を開発します。
目の前の課題。
有用な支援を可能にするために、InsTALL は 1) タスク ビデオとペアのテキスト データでマルチモーダル モデルをトレーニングし、2) ビデオ データからタスク グラフを自動的に抽出し、トレーニングおよび推論時にそれを活用します。
私たちは、InsTALL が、マルチモーダルなアクティビティの理解のために考慮された提案されたサブタスク (タスク認識 (TR)、行動認識 (AR)、次の行動予測 (AP)、および計画予測 (PP)) にわたって最先端のパフォーマンスを達成することを示します。
– 自動エラー識別に関連する 2 つの新しいサブタスクで既存のベースラインを上回るパフォーマンスを示します。
要約(オリジナル)
The improved competence of generative models can help building multi-modal virtual assistants that leverage modalities beyond language. By observing humans performing multi-step tasks, one can build assistants that have situational awareness of actions and tasks being performed, enabling them to cater assistance based on this understanding. In this paper, we develop a Context-aware Instructional Task Assistant with Multi-modal Large Language Models (InsTALL) that leverages an online visual stream (e.g. a user’s screen share or video recording) and responds in real-time to user queries related to the task at hand. To enable useful assistance, InsTALL 1) trains a multi-modal model on task videos and paired textual data, and 2) automatically extracts task graph from video data and leverages it at training and inference time. We show InsTALL achieves state-of-the-art performance across proposed sub-tasks considered for multimodal activity understanding — task recognition (TR), action recognition (AR), next action prediction (AP), and plan prediction (PP) — and outperforms existing baselines on two novel sub-tasks related to automatic error identification.
arxiv情報
著者 | Pha Nguyen,Sailik Sengupta,Girik Malik,Arshit Gupta,Bonan Min |
発行日 | 2025-01-21 15:55:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google