Made to Order: Discovering monotonic temporal changes via self-supervised video ordering

要約

私たちの目的は、一連の画像における単調な時間的変化を発見し、その位置を特定することです。
これを達成するために、時間とともに単調な変化のみが正しい順序付けをもたらすことができるため、監視信号として「時間」を使用して、シャッフルされた画像シーケンスを順序付けする単純なプロキシ タスクを利用します。
また、組み込みのアトリビューション マップを使用して、任意の長さの画像シーケンスを汎用的に順序付けするための、柔軟なトランスフォーマー ベースのモデルも導入します。
トレーニング後、モデルは周期的変化や確率的変化を無視しながら、単調変化を正常に検出して位置特定します。
さまざまなシーンやオブジェクトタイプをカバーする複数のビデオ設定でのモデルの適用を実証し、目に見えないシーケンスにおけるオブジェクトレベルと環境の両方の変化を発見します。
また、注意ベースのアトリビューション マップが、変化する領域をセグメント化するための効果的なプロンプトとして機能すること、および学習された表現が下流のアプリケーションに使用できることも実証します。
最後に、このモデルが画像セットの順序付けに関する標準ベンチマークで最先端の水準を達成していることを示します。

要約(オリジナル)

Our objective is to discover and localize monotonic temporal changes in a sequence of images. To achieve this, we exploit a simple proxy task of ordering a shuffled image sequence, with `time’ serving as a supervisory signal since only changes that are monotonic with time can give rise to the correct ordering. We also introduce a flexible transformer-based model for general-purpose ordering of image sequences of arbitrary length with built-in attribution maps. After training, the model successfully discovers and localizes monotonic changes while ignoring cyclic and stochastic ones. We demonstrate applications of the model in multiple video settings covering different scene and object types, discovering both object-level and environmental changes in unseen sequences. We also demonstrate that the attention-based attribution maps function as effective prompts for segmenting the changing regions, and that the learned representations can be used for downstream applications. Finally, we show that the model achieves the state of the art on standard benchmarks for ordering a set of images.

arxiv情報

著者 Charig Yang,Weidi Xie,Andrew Zisserman
発行日 2024-04-25 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク