Motion Question Answering via Modular Motion Programs

要約

現実世界で人間の行動を認識し推論できる人工知能システムを構築するには、まずモーション シーケンスに対して複雑な時空間推論を行うモデルを設計する必要があります。
この目標に向けて、長い形式の人間の動作シーケンスに関するモデルの複雑な複数ステップの推論能力を評価する HumanMotionQA タスクを提案します。
動作シーケンスの小さな部分で運動合図を検出し、イベントがいつ発生するかを時間的に推論し、特定の動作属性を照会する必要がある質問と回答のペアのデータセットを生成します。
さらに、運動概念、属性ニューラル演算子、時間関係の学習を通じて、記号推論と地面運動に対するモジュール設計を使用する、このタスクのための神経記号法である NSPose を提案します。
NSPose が HumanMotionQA タスクに適しており、すべてのベースライン手法を上回っていることを示します。

要約(オリジナル)

In order to build artificial intelligence systems that can perceive and reason with human behavior in the real world, we must first design models that conduct complex spatio-temporal reasoning over motion sequences. Moving towards this goal, we propose the HumanMotionQA task to evaluate complex, multi-step reasoning abilities of models on long-form human motion sequences. We generate a dataset of question-answer pairs that require detecting motor cues in small portions of motion sequences, reasoning temporally about when events occur, and querying specific motion attributes. In addition, we propose NSPose, a neuro-symbolic method for this task that uses symbolic reasoning and a modular design to ground motion through learning motion concepts, attribute neural operators, and temporal relations. We demonstrate the suitability of NSPose for the HumanMotionQA task, outperforming all baseline methods.

arxiv情報

著者 Mark Endo,Joy Hsu,Jiaman Li,Jiajun Wu
発行日 2023-05-17 17:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク