要約
ピクセル単位のフローラベルの手動注釈は法外に費用がかかり、手間がかかるため、ビデオからグラウンドトゥルースラベルを取得することは困難です。
さらに、既存のアプローチでは、合成データセットでトレーニングされたモデルを本物のビデオに適合させようとします。これは必然的にドメインの不一致に悩まされ、実際のアプリケーションのパフォーマンスを妨げます。
これらの問題を解決するために、ラベルのないリアルなビデオから直接大規模なオプティカルフローデータセットを作成できる期待値最大化ベースのフレームワークであるRealFlowを提案します。
具体的には、まずビデオフレームのペア間のオプティカルフローを推定し、次に予測されたフローに基づいてこのペアから新しい画像を合成します。
したがって、新しい画像ペアとそれに対応するフローは、新しいトレーニングセットと見なすことができます。
さらに、ソフトマックススプラッティングと双方向の穴埋め技術を採用して画像合成のアーティファクトを軽減するRealistic Image Pair Rendering(RIPR)モジュールを設計します。
Eステップでは、RIPRは新しい画像をレンダリングして、大量のトレーニングデータを作成します。
Mステップでは、生成されたトレーニングデータを利用してオプティカルフローネットワークをトレーニングします。これを使用して、次のEステップでオプティカルフローを推定できます。
反復学習ステップの間に、フローネットワークの機能が徐々に向上し、フローの精度と合成されたデータセットの品質も向上します。
実験結果は、RealFlowが以前のデータセット生成方法よりもかなり大きな差で優れていることを示しています。
さらに、生成されたデータセットに基づいて、私たちのアプローチは、監視ありと監視なしの両方のオプティカルフロー方法と比較して、2つの標準ベンチマークで最先端のパフォーマンスを実現します。
コードとデータセットはhttps://github.com/megvii-research/RealFlowで入手できます。
要約(オリジナル)
Obtaining the ground truth labels from a video is challenging since the manual annotation of pixel-wise flow labels is prohibitively expensive and laborious. Besides, existing approaches try to adapt the trained model on synthetic datasets to authentic videos, which inevitably suffers from domain discrepancy and hinders the performance for real-world applications. To solve these problems, we propose RealFlow, an Expectation-Maximization based framework that can create large-scale optical flow datasets directly from any unlabeled realistic videos. Specifically, we first estimate optical flow between a pair of video frames, and then synthesize a new image from this pair based on the predicted flow. Thus the new image pairs and their corresponding flows can be regarded as a new training set. Besides, we design a Realistic Image Pair Rendering (RIPR) module that adopts softmax splatting and bi-directional hole filling techniques to alleviate the artifacts of the image synthesis. In the E-step, RIPR renders new images to create a large quantity of training data. In the M-step, we utilize the generated training data to train an optical flow network, which can be used to estimate optical flows in the next E-step. During the iterative learning steps, the capability of the flow network is gradually improved, so is the accuracy of the flow, as well as the quality of the synthesized dataset. Experimental results show that RealFlow outperforms previous dataset generation methods by a considerably large margin. Moreover, based on the generated dataset, our approach achieves state-of-the-art performance on two standard benchmarks compared with both supervised and unsupervised optical flow methods. Our code and dataset are available at https://github.com/megvii-research/RealFlow
arxiv情報
著者 | Yunhui Han,Kunming Luo,Ao Luo,Jiangyu Liu,Haoqiang Fan,Guiming Luo,Shuaicheng Liu |
発行日 | 2022-07-22 13:33:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google