要約
この記事では、ビデオからレトロスタイルの 2D アニメーションを自動的に合成する新しい方法である Lester を紹介します。
この方法は、主にオブジェクトのセグメンテーションと追跡の問題としてこの課題に取り組みます。
ビデオ フレームはセグメント エニシング モデル (SAM) で処理され、結果として得られるマスクは、半教師ありビデオ オブジェクト セグメンテーションの階層伝播方法である DeAOT を使用して後続のフレームを通じて追跡されます。
マスクの輪郭のジオメトリは、Douglas-Peucker アルゴリズムを使用して簡素化されます。
最後に、顔の特徴、ピクセレーション、および基本的なシャドウ効果をオプションで追加できます。
結果は、この方法が優れた時間的一貫性を示し、異なるポーズや外観、ダイナミックなショット、部分的なショット、および多様な背景を持つビデオを正しく処理できることを示しています。
提案された方法は、時間的一貫性の問題があり、ピクセル化された概略的な出力にうまく対応できない拡散モデルベースのビデオ間変換パイプラインよりも、よりシンプルで決定論的なアプローチを提供します。
また、この方法は、カスタムの手作り 3D モデルが必要で、処理できるシーンの種類が非常に限られている 3D 人間の姿勢推定に基づく技術よりもはるかに実用的です。
要約(オリジナル)
This article introduces Lester, a novel method to automatically synthetise retro-style 2D animations from videos. The method approaches the challenge mainly as an object segmentation and tracking problem. Video frames are processed with the Segment Anything Model (SAM) and the resulting masks are tracked through subsequent frames with DeAOT, a method of hierarchical propagation for semi-supervised video object segmentation. The geometry of the masks’ contours is simplified with the Douglas-Peucker algorithm. Finally, facial traits, pixelation and a basic shadow effect can be optionally added. The results show that the method exhibits an excellent temporal consistency and can correctly process videos with different poses and appearances, dynamic shots, partial shots and diverse backgrounds. The proposed method provides a more simple and deterministic approach than diffusion models based video-to-video translation pipelines, which suffer from temporal consistency problems and do not cope well with pixelated and schematic outputs. The method is also much most practical than techniques based on 3D human pose estimation, which require custom handcrafted 3D models and are very limited with respect to the type of scenes they can process.
arxiv情報
著者 | Ruben Tous |
発行日 | 2024-02-15 11:15:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google