要約
座標ネットワークは、信号を圧縮された連続的な実体として表現することができるため、コンピュータビジョンで広く用いられている。しかし、一次オプティマイザを用いたこれらのネットワークの学習には時間がかかり、リアルタイムアプリケーションでの使用を妨げている。最近の研究では、より高速な学習を実現するために、浅いボクセルベースの表現を選択していますが、これはメモリ効率を犠牲にしています。本研究では、2次最適化手法を活用し、圧縮性を維持したまま座標ネットワークの学習時間を大幅に短縮するソリューションを提案する。実験により、音声、画像、動画、形状再構成、神経輝度場など、様々な信号モダリティにおいて、このアプローチの有効性を示す。
要約(オリジナル)
Coordinate networks are widely used in computer vision due to their ability to represent signals as compressed, continuous entities. However, training these networks with first-order optimizers can be slow, hindering their use in real-time applications. Recent works have opted for shallow voxel-based representations to achieve faster training, but this sacrifices memory efficiency. This work proposes a solution that leverages second-order optimization methods to significantly reduce training times for coordinate networks while maintaining their compressibility. Experiments demonstrate the effectiveness of this approach on various signal modalities, such as audio, images, videos, shape reconstruction, and neural radiance fields.
arxiv情報
著者 | Hemanth Saratchandran,Shin-Fang Chng,Sameera Ramasinghe,Lachlan MacDonald,Simon Lucey |
発行日 | 2023-05-15 11:26:32+00:00 |
arxivサイト | arxiv_id(pdf) |