Interactive Control over Temporal-consistency while Stylizing Video Streams


Neural Style Transfer (NST) の出現により、画像のスタイル設定が非常に一般的になりました。
時間的一貫性を強制するための既存のアプローチのほとんどは、次の欠点の 1 つ以上に悩まされています。
それらは、(1) 限られた範囲のスタイライズ技術にのみ適している、(2) 完全なビデオを入力として必要とするオフラインの方法でのみ適用できる、(3) スタイライズのタスクに一貫性を提供できない、または (4)
既存の一貫したビデオ フィルタリング アプローチは、ちらつきアーティファクトを完全に除去することを目的としているため、特定の一貫性制御の側面を考慮していないことに注意してください。
ただし、様式化タスクの場合、一定量のちらつきが芸術的なルック アンド フィールに追加される可能性があるため、一貫性の制御は不可欠な要件です。
上記の要件を達成するために、インタラクティブな一貫性制御を提供しながら、ビデオ ストリームをスタイル化できるアプローチを提案します。
インタラクティブなパフォーマンスを実現するために、十分な精度でデスクトップ システム上で毎秒 80 フレーム (FPS) で動作するライト オプティカル フロー ネットワークを開発しました。
フロー ネットワークを使用した最終的な一貫したビデオ出力は、最先端のオプティカル フロー ネットワークを使用して得られたものに匹敵することを示します。
さらに、ローカルとグローバルの一貫した機能の適応的な組み合わせを採用し、2 つの間のインタラクティブな選択を可能にします。


With the advent of Neural Style Transfer (NST), stylizing an image has become quite popular. A convenient way for extending stylization techniques to videos is by applying them on a per-frame basis. However, such per-frame application usually lacks temporal-consistency expressed by undesirable flickering artifacts. Most of the existing approaches for enforcing temporal-consistency suffers from one or more of the following drawbacks. They (1) are only suitable for a limited range of stylization techniques, (2) can only be applied in an offline fashion requiring the complete video as input, (3) cannot provide consistency for the task of stylization, or (4) do not provide interactive consistency-control. Note that existing consistent video-filtering approaches aim to completely remove flickering artifacts and thus do not respect any specific consistency-control aspect. For stylization tasks, however, consistency-control is an essential requirement where a certain amount of flickering can add to the artistic look and feel. Moreover, making this control interactive is paramount from a usability perspective. To achieve the above requirements, we propose an approach that can stylize video streams while providing interactive consistency-control. Apart from stylization, our approach also supports various other image processing filters. For achieving interactive performance, we develop a lite optical-flow network that operates at 80 Frames per second (FPS) on desktop systems with sufficient accuracy. We show that the final consistent video-output using our flow network is comparable to that being obtained using state-of-the-art optical-flow network. Further, we employ an adaptive combination of local and global consistent features and enable interactive selection between the two. By objective and subjective evaluation, we show that our method is superior to state-of-the-art approaches.


著者 Sumit Shekhar,Max Reimann,Moritz Hilscher,Amir Semmo,Jürgen Döllner,Matthias Trapp
発行日 2023-01-02 16:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.GR パーマリンク