Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos

要約

ビデオ アクション セグメンテーションは、多くの分野で広く適用されています。
これまでの研究のほとんどは、この目的のためにビデオベースの視覚モデルを採用していました。
ただし、多くの場合、ビデオ内の長期的な依存関係をキャプチャするために大規模な受容野、LSTM または Transformer メソッドに依存するため、大量の計算リソースが必要になります。
この課題に対処するために、グラフベースのモデルが提案されました。
ただし、以前のグラフベースのモデルは精度が低くなります。
そこで、この研究では Semantic2Graph というグラフ構造のアプローチを導入し、ビデオの長期的な依存関係をモデル化し、それによって計算コストを削減し、精度を高めました。
ビデオのグラフ構造をフレームレベルで構築します。
時間エッジは、ビデオ内の時間関係とアクション順序をモデル化するために利用されます。
さらに、ビデオアクションにおける長期と短期の両方の意味論的関係を捕捉するために、対応するエッジの重みを伴う正と負の意味論的エッジを設計しました。
ノード属性には、ビデオ コンテンツ、グラフ構造、ラベル テキストから抽出された豊富なマルチモーダル機能が含まれており、視覚的、構造的、および意味論的な手がかりが含まれます。
このマルチモーダル情報を効果的に合成するために、グラフ ニューラル ネットワーク (GNN) モデルを採用して、ノード アクション ラベル分類のマルチモーダル機能を融合します。
実験結果は、Semantic2Graph が、特に GTEA や 50Salads などのベンチマーク データセットにおいて、パフォーマンスの点で最先端の手法よりも優れていることを示しています。
複数のアブレーション実験により、モデルのパフォーマンスを向上させる意味論的特徴の有効性がさらに検証されます。
特に、Semantic2Graph にセマンティック エッジを組み込むことで、長期的な依存関係をコスト効率良くキャプチャできるようになり、ビデオベースのビジョン モデルにおける計算リソースの制約によってもたらされる課題に対処する際の有用性が確認されます。

要約(オリジナル)

Video action segmentation have been widely applied in many fields. Most previous studies employed video-based vision models for this purpose. However, they often rely on a large receptive field, LSTM or Transformer methods to capture long-term dependencies within videos, leading to significant computational resource requirements. To address this challenge, graph-based model was proposed. However, previous graph-based models are less accurate. Hence, this study introduces a graph-structured approach named Semantic2Graph, to model long-term dependencies in videos, thereby reducing computational costs and raise the accuracy. We construct a graph structure of video at the frame-level. Temporal edges are utilized to model the temporal relations and action order within videos. Additionally, we have designed positive and negative semantic edges, accompanied by corresponding edge weights, to capture both long-term and short-term semantic relationships in video actions. Node attributes encompass a rich set of multi-modal features extracted from video content, graph structures, and label text, encompassing visual, structural, and semantic cues. To synthesize this multi-modal information effectively, we employ a graph neural network (GNN) model to fuse multi-modal features for node action label classification. Experimental results demonstrate that Semantic2Graph outperforms state-of-the-art methods in terms of performance, particularly on benchmark datasets such as GTEA and 50Salads. Multiple ablation experiments further validate the effectiveness of semantic features in enhancing model performance. Notably, the inclusion of semantic edges in Semantic2Graph allows for the cost-effective capture of long-term dependencies, affirming its utility in addressing the challenges posed by computational resource constraints in video-based vision models.

arxiv情報

著者 Junbin Zhang,Pei-Hsuan Tsai,Meng-Hsun Tsai
発行日 2024-02-06 11:12:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, 68T30, 68T45, cs.CV, cs.MM, I.2.10 パーマリンク