Multimodal Subtask Graph Generation from Instructional Videos

要約

実世界のタスクは、相互に依存する複数のサブタスクで構成されています (たとえば、汚れた鍋は調理に使用する前に洗う必要があります)。
この作業では、タスクを説明する教育ビデオから、そのようなサブタスク間の因果関係をモデル化することを目指しています。
世界に関する完全な情報はビデオからはアクセスできないことが多く、イベントの因果構造を理解するための堅牢な学習メカニズムが必要なため、これは困難な問題です。
マルチモーダル サブタスク グラフ生成 (MSG2) を提示します。これは、ノイズの多い Web ビデオからのタスクに関連するタスクのサブタスク間の依存関係を定義するサブタスク グラフを構築するアプローチです。
マルチモーダル アプローチによって生成されたグラフは、以前のアプローチと比較して、人間が注釈を付けたグラフに近くなっています。
MSG2 はさらに、次のサブタスク予測のダウンストリーム タスクを、ProceL および CrossTask データセットの最近のビデオ トランスフォーマー モデルよりもそれぞれ 85% および 30% 正確に実行します。

要約(オリジナル)

Real-world tasks consist of multiple inter-dependent subtasks (e.g., a dirty pan needs to be washed before it can be used for cooking). In this work, we aim to model the causal dependencies between such subtasks from instructional videos describing the task. This is a challenging problem since complete information about the world is often inaccessible from videos, which demands robust learning mechanisms to understand the causal structure of events. We present Multimodal Subtask Graph Generation (MSG2), an approach that constructs a Subtask Graph defining the dependency between a task’s subtasks relevant to a task from noisy web videos. Graphs generated by our multimodal approach are closer to human-annotated graphs compared to prior approaches. MSG2 further performs the downstream task of next subtask prediction 85% and 30% more accurately than recent video transformer models in the ProceL and CrossTask datasets, respectively.

arxiv情報

著者 Yunseok Jang,Sungryull Sohn,Lajanugen Logeswaran,Tiange Luo,Moontae Lee,Honglak Lee
発行日 2023-02-17 03:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク