Hierarchical Vector Quantization for Unsupervised Action Segmentation


この研究では、教師なし時間アクション セグメンテーションに取り組みます。これは、一連の長いトリミングされていないビデオを、ビデオ間で一貫した意味的に意味のあるセグメントに分割します。
最近のアプローチでは、表現学習とクラスタリングをこのタスクの 1 つのステップで組み合わせていますが、同じクラスの時間セグメント内の大きな変動には対処できません。
この制限に対処するために、我々は、階層ベクトル量子化 (\ours) と呼ばれる、2 つの後続のベクトル量子化モジュールで構成される新しい方法を提案します。
この目的を達成するために、教師なし時間アクション セグメンテーション用の Jensen-Shannon Distance (JSD) に基づく新しい指標を導入します。
私たちは、Breakfast、YouTube Educational、IKEA ASM という 3 つの公開データセットでアプローチを評価します。
私たちのアプローチは、F1 スコア、リコール、JSD の点で最先端のものを上回っています。


In this work, we address unsupervised temporal action segmentation, which segments a set of long, untrimmed videos into semantically meaningful segments that are consistent across videos. While recent approaches combine representation learning and clustering in a single step for this task, they do not cope with large variations within temporal segments of the same class. To address this limitation, we propose a novel method, termed Hierarchical Vector Quantization (\ours), that consists of two subsequent vector quantization modules. This results in a hierarchical clustering where the additional subclusters cover the variations within a cluster. We demonstrate that our approach captures the distribution of segment lengths much better than the state of the art. To this end, we introduce a new metric based on the Jensen-Shannon Distance (JSD) for unsupervised temporal action segmentation. We evaluate our approach on three public datasets, namely Breakfast, YouTube Instructional and IKEA ASM. Our approach outperforms the state of the art in terms of F1 score, recall and JSD.


著者 Federico Spurio,Emad Bahrami,Gianpiero Francesca,Juergen Gall
発行日 2024-12-23 15:18:24+00:00
