要約
この論文では、トレーニング データを必要とせずに、単一の入力ビデオ自体からアクション セグメンテーション タスクに適したアクション表現を学習する、新しい完全に教師なしのフレームワークを提案します。
私たちの方法は、類似性分布に作用する三重項損失と、新しい表現空間でのアクションを発見するために時間的および意味論的な事前を効果的にモデル化する新しい三重項選択戦略を備えた浅いネットワークに根ざした深層計量学習アプローチです。
このような状況下で、既存の教師なしアプローチと比較して、学習されたアクション表現の時間境界をより高い品質で回復することに成功しました。
提案された方法は、アクション セグメンテーション タスクに広く使用されている 2 つのベンチマーク データセットで評価され、学習された表現に汎用クラスタリング アルゴリズムを適用することにより、競争力のあるパフォーマンスを実現します。
要約(オリジナル)
In this paper, we propose a novel fully unsupervised framework that learns action representations suitable for the action segmentation task from the single input video itself, without requiring any training data. Our method is a deep metric learning approach rooted in a shallow network with a triplet loss operating on similarity distributions and a novel triplet selection strategy that effectively models temporal and semantic priors to discover actions in the new representational space. Under these circumstances, we successfully recover temporal boundaries in the learned action representations with higher quality compared with existing unsupervised approaches. The proposed method is evaluated on two widely used benchmark datasets for the action segmentation task and it achieves competitive performance by applying a generic clustering algorithm on the learned representations.
arxiv情報
著者 | E. Bueno-Benito,B. Tura,M. Dimiccoli |
発行日 | 2023-07-19 10:12:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google