Training and Predicting Visual Error for Real-Time Applications

要約

視覚的エラー メトリックは、知覚される画像の類似性の定量化において基本的な役割を果たします。
最近では、コンテンツ アダプティブ シェーディングやシェーディングの再利用によるパフォーマンスの向上や効率の向上など、リアルタイム アプリケーションでの使用例が登場しています。
広範囲にわたるさまざまな測定基準が確立されており、最も洗練された測定基準は人間の視覚システムの知覚特性を捉えることができます。
ただし、その複雑さ、計算コスト、および比較するための参照画像への依存により、リアルタイムでの汎用的な使用が妨げられ、そのようなアプリケーションは利用可能な最も単純なメトリクスのみを使用するように制限されます。
この研究では、参照画像やレンダリング画像を必要とせずに、さまざまな視覚的指標を予測する畳み込みニューラル ネットワークの機能を調査します。
具体的には、ニューラル ネットワークをトレーニングして展開し、シェーディングの再利用またはシェーディング レートの低下から生じる視覚的エラーを推定します。
結果として得られるモデルは、分散の 70% ~ 90% を占め、最大で 1 桁高速な計算時間を実現します。
私たちのソリューションは、ほとんどの最先端のディファード シェーディング パイプラインですぐに利用できる画像空間情報と以前のフレームからの再投影を組み合わせて、これまで見えなかった領域であっても視覚的エラーを適切に推定できるようにします。
適切な畳み込みネットワーク アーキテクチャと、トレーニング用のデータ準備に関する考慮事項について説明します。
遅延パイプラインでコンテンツ アダプティブ シェーディングを実装するリアルタイム アプリケーションで、インタラクティブなレートで複雑なエラー メトリクスを予測するネットワークの機能を実証します。
目に見えない画像領域の部分に応じて、私たちのアプローチは、最先端の方法と比較して最大 2 倍のパフォーマンスを達成できます。

要約(オリジナル)

Visual error metrics play a fundamental role in the quantification of perceived image similarity. Most recently, use cases for them in real-time applications have emerged, such as content-adaptive shading and shading reuse to increase performance and improve efficiency. A wide range of different metrics has been established, with the most sophisticated being capable of capturing the perceptual characteristics of the human visual system. However, their complexity, computational expense, and reliance on reference images to compare against prevent their generalized use in real-time, restricting such applications to using only the simplest available metrics. In this work, we explore the abilities of convolutional neural networks to predict a variety of visual metrics without requiring either reference or rendered images. Specifically, we train and deploy a neural network to estimate the visual error resulting from reusing shading or using reduced shading rates. The resulting models account for 70%-90% of the variance while achieving up to an order of magnitude faster computation times. Our solution combines image-space information that is readily available in most state-of-the-art deferred shading pipelines with reprojection from previous frames to enable an adequate estimate of visual errors, even in previously unseen regions. We describe a suitable convolutional network architecture and considerations for data preparation for training. We demonstrate the capability of our network to predict complex error metrics at interactive rates in a real-time application that implements content-adaptive shading in a deferred pipeline. Depending on the portion of unseen image regions, our approach can achieve up to $2\times$ performance compared to state-of-the-art methods.

arxiv情報

著者 João Libório Cardoso,Bernhard Kerbl,Lei Yang,Yury Uralsky,Michael Wimmer
発行日 2023-10-13 14:14:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG, I.2.10 パーマリンク