An information-theoretic approach to unsupervised keypoint representation learning

要約

ビデオから有益な表現を抽出することは、さまざまなダウンストリーム タスクを効果的に学習するための基本です。
顕著性に関する古典的な作品に触発されて、教師なしでビデオから意味のある表現を発見するための新しい情報理論的アプローチを提示します。
ピクセル近傍のローカル エントロピーとビデオ ストリームにおけるその進化は、顕著な特徴に注意を向けることを学習するための貴重な固有の監視信号であると主張します。
したがって、動的な情報トランスポーターとして機能するキーポイントの簡潔な表現に視覚的特徴を抽象化します。
2 つの元の情報理論損失のおかげで、教師なしの方法で、ビデオ フレーム全体で顕著な情報を運ぶ時空間的に一貫したキーポイント表現を発見します。
1 つ目は、フレーム内のキーポイントによってカバーされる情報を最大化する損失です。
第二に、時間の経過とともに最適化されたキーポイント転送を促進する損失であり、情報フローの一貫性を課します。
オブジェクトダイナミクスの学習など、さまざまなダウンストリームタスクで最先端のベースラインと比較して、キーポイントベースの表現を評価します。
キーポイントの表現力と一貫性を評価するために、新しい一連のメトリックを提案します。
私たちの経験的な結果は、静的オブジェクトと動的オブジェクトの両方への出席や、シーンに突然出入りするオブジェクトへの出席などの課題を解決する、情報主導のキーポイントの優れたパフォーマンスを示しています。

要約(オリジナル)

Extracting informative representations from videos is fundamental for the effective learning of various downstream tasks. Inspired by classical works on saliency, we present a novel information-theoretic approach to discover meaningful representations from videos in an unsupervised fashion. We argue that local entropy of pixel neighborhoods and its evolution in a video stream is a valuable intrinsic supervisory signal for learning to attend to salient features. We, thus, abstract visual features into a concise representation of keypoints that serve as dynamic information transporters. We discover in an unsupervised fashion spatio-temporally consistent keypoint representations that carry the prominent information across video frames, thanks to two original information-theoretic losses. First, a loss that maximizes the information covered by the keypoints in a frame. Second, a loss that encourages optimized keypoint transportation over time, thus, imposing consistency of the information flow. We evaluate our keypoint-based representation compared to state-of-the-art baselines in different downstream tasks such as learning object dynamics. To evaluate the expressivity and consistency of the keypoints, we propose a new set of metrics. Our empirical results showcase the superior performance of our information-driven keypoints that resolve challenges like attendance to both static and dynamic objects, and to objects abruptly entering and leaving the scene.

arxiv情報

著者 Ali Younes,Simone Schaub-Meyer,Georgia Chalvatzaki
発行日 2022-09-30 12:03:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク