What makes an image realistic?

要約

過去 10 年間で、画像、テキスト、音声、ビデオなど、リアルに見えるデータを生成する能力が大幅に進歩しました。
ここでは、現実性の定量化、つまり現実的なデータと非現実的なデータを確実に区別できる関数の設計という、密接に関連する問題について説明します。
この問題は、機械学習の普及や生成 AI の最近の進歩にもかかわらず、解決するのが非常に難しく、依然としてよく理解されていないことが判明しています。
アルゴリズム情報理論から得た洞察に基づいて、この問題がなぜ難しいのか、なぜ優れた生成モデルだけでは解決できないのか、そして優れた解決策とはどのようなものなのかについて議論します。
特に、敵対的批評家とは異なり、敵対的訓練を必要としない普遍的批評家の概念を導入します。
普遍的な批評家はすぐには実用的ではありませんが、実践的な実装を導くための北極星として、またリアリズムを捉える既存の試みを分析するためのツールとして役立ちます。

要約(オリジナル)

The last decade has seen tremendous progress in our ability to generate realistic-looking data, be it images, text, audio, or video. Here, we discuss the closely related problem of quantifying realism, that is, designing functions that can reliably tell realistic data from unrealistic data. This problem turns out to be significantly harder to solve and remains poorly understood, despite its prevalence in machine learning and recent breakthroughs in generative AI. Drawing on insights from algorithmic information theory, we discuss why this problem is challenging, why a good generative model alone is insufficient to solve it, and what a good solution would look like. In particular, we introduce the notion of a universal critic, which unlike adversarial critics does not require adversarial training. While universal critics are not immediately practical, they can serve both as a North Star for guiding practical implementations and as a tool for analyzing existing attempts to capture realism.

arxiv情報

著者 Lucas Theis
発行日 2024-05-21 14:44:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク