GraphVid: It Only Takes a Few Nodes to Understand a Video

要約

知覚的に意味のある特徴をグラフにエンコードするビデオの簡潔な表現を提案します。
この表現により、ビデオの大量の冗長性を活用し、計算を節約することを目指しています。
まず、スーパーピクセルをグラフノードと見なしてビデオのスーパーピクセルベースのグラフ表現を構築し、隣接するスーパーピクセル間に空間的および時間的な接続を作成します。
次に、グラフ畳み込みネットワークを活用してこの表現を処理し、目的の出力を予測します。
その結果、はるかに少ないパラメーターでモデルをトレーニングできるため、トレーニング期間が短くなり、計算リソースの要件が軽減されます。
公開されているデータセットKinetics-400およびCharadesに関する包括的な実験的研究は、提案された方法が非常に費用効果が高く、トレーニングおよび推論中に限られた商品ハードウェアを使用することを示しています。
最先端の方法に匹敵する結果を達成しながら、計算要件を10分の1に削減します。
提案されたアプローチは、ビデオ理解をより効率的に解決するための扉を開き、より多くのリソースが限られたユーザーがこの研究分野で成功できるようにする有望な方向性であると信じています。

要約(オリジナル)

We propose a concise representation of videos that encode perceptually meaningful features into graphs. With this representation, we aim to leverage the large amount of redundancies in videos and save computations. First, we construct superpixel-based graph representations of videos by considering superpixels as graph nodes and create spatial and temporal connections between adjacent superpixels. Then, we leverage Graph Convolutional Networks to process this representation and predict the desired output. As a result, we are able to train models with much fewer parameters, which translates into short training periods and a reduction in computation resource requirements. A comprehensive experimental study on the publicly available datasets Kinetics-400 and Charades shows that the proposed method is highly cost-effective and uses limited commodity hardware during training and inference. It reduces the computational requirements 10-fold while achieving results that are comparable to state-of-the-art methods. We believe that the proposed approach is a promising direction that could open the door to solving video understanding more efficiently and enable more resource limited users to thrive in this research field.

arxiv情報

著者 Eitan Kosman,Dotan Di Castro
発行日 2022-07-20 15:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク