Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network

要約

人間のアクティビティの認識は、知能ロボットにとって重要なタスクです。特に人間とロボットのコラボレーションの分野では、サブアクティビティのラベルだけでなく、アクティビティの時間構造も必要となります。
人間とオブジェクトの相互作用のシーケンスにおけるラベルと時間構造の両方を自動的に認識するために、我々は新しいピラミッドグラフ畳み込みネットワーク(PGCN)を提案します。これは、注意ベースのグラフ畳み込みネットワークと、
時間軸上のインタラクションシーケンスをそれぞれダウンサンプリングおよびアップサンプリングするための時間ピラミッドプーリングモジュール。
映像データの検出結果から、人物と物体の2次元または3次元の空間関係をグラフとして表現するシステムです。
人間と物体の関係を学習するために、新しいアテンション グラフ畳み込みネットワークがトレーニングされ、グラフ表現から凝縮された情報が抽出されます。
アクションをサブアクションに分割するために、圧縮された特徴を元の時間スケールにアップサンプリングしてアクションをフレームごとに分類する、新しい時間ピラミッド プーリング モジュールが提案されています。
私たちは、空間的注意、時間的注意、チャネル的注意といったさまざまな注意層を調査し、さまざまなアップサンプリング デコーダを組み合わせて、アクション認識とセグメンテーションのパフォーマンスをテストします。
私たちは、人間と物体のインタラクション認識の分野における 2 つの困難なデータセット、つまり両手操作データセットと IKEA アセンブリ データセットに基づいてモデルを評価します。
私たちの分類器がフレーム単位のアクション認識とセグメンテーションの両方を大幅に向上させることを実証します。たとえば、Bimanual Actions データセットの F1 マイクロ スコアと F1@50 スコアは、それぞれ $4.3\%$ と $8.5\%$ 改善されました。

要約(オリジナル)

Human activities recognition is an important task for an intelligent robot, especially in the field of human-robot collaboration, it requires not only the label of sub-activities but also the temporal structure of the activity. In order to automatically recognize both the label and the temporal structure in sequence of human-object interaction, we propose a novel Pyramid Graph Convolutional Network (PGCN), which employs a pyramidal encoder-decoder architecture consisting of an attention based graph convolution network and a temporal pyramid pooling module for downsampling and upsampling interaction sequence on the temporal axis, respectively. The system represents the 2D or 3D spatial relation of human and objects from the detection results in video data as a graph. To learn the human-object relations, a new attention graph convolutional network is trained to extract condensed information from the graph representation. To segment action into sub-actions, a novel temporal pyramid pooling module is proposed, which upsamples compressed features back to the original time scale and classifies actions per frame. We explore various attention layers, namely spatial attention, temporal attention and channel attention, and combine different upsampling decoders to test the performance on action recognition and segmentation. We evaluate our model on two challenging datasets in the field of human-object interaction recognition, i.e. Bimanual Actions and IKEA Assembly datasets. We demonstrate that our classifier significantly improves both framewise action recognition and segmentation, e.g., F1 micro and F1@50 scores on Bimanual Actions dataset are improved by $4.3\%$ and $8.5\%$ respectively.

arxiv情報

著者 Hao Xing,Darius Burschka
発行日 2024-10-10 13:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク