要約
従来のニューラルネットワーク駆動のインペインティング手法は、モバイルデバイスの処理能力とメモリの制約の中で高品質の結果を提供するのに苦労している。我々の研究は、入力データの構成を変更することでメモリ使用量を最適化する革新的なアプローチを導入している。通常、ビデオのインペインティングは、近傍フレームや参照フレームなど、あらかじめ決められた入力フレームセットに依存しており、多くの場合、5フレームセットに制限されている。我々の焦点は、これらの入力フレームの割合を変化させることで、インペイントされたビデオの品質にどのような影響を与えるかを調べることである。オプティカルフローとマスクの変化に基づいて入力フレームの構成を動的に調整することで、急速な視覚的コンテキストの変化を含む様々なコンテンツにおいて改善が観察された。
要約(オリジナル)
Traditional neural network-driven inpainting methods struggle to deliver high-quality results within the constraints of mobile device processing power and memory. Our research introduces an innovative approach to optimize memory usage by altering the composition of input data. Typically, video inpainting relies on a predetermined set of input frames, such as neighboring and reference frames, often limited to five-frame sets. Our focus is to examine how varying the proportion of these input frames impacts the quality of the inpainted video. By dynamically adjusting the input frame composition based on optical flow and changes of the mask, we have observed an improvement in various contents including rapid visual context changes.
arxiv情報
著者 | Hoyoung Kim,Azimbek Khudoyberdiev,Seonghwan Jeong,Jihoon Ryoo |
発行日 | 2025-05-05 15:42:56+00:00 |
arxivサイト | arxiv_id(pdf) |