要約
生成モデルは、画像、ビデオ、音楽の合成、自然言語処理、分子設計など、さまざまな応用分野をカバーしています。
デジタル生成モデルが大きくなるにつれて、高速かつエネルギー効率の高い方法でのスケーラブルな推論が課題になります。
ここでは、拡散モデルにヒントを得た光生成モデルを紹介します。浅くて高速なデジタル エンコーダは、最初にランダム ノイズを位相パターンにマッピングし、これが望ましいデータ分布の光生成シードとして機能します。
共同トレーニングされた自由空間ベースの再構成可能なデコーダは、これらの生成シードをすべて光学的に処理して、ターゲット データの分布に従って新しい画像 (これまで見たことのない) を作成します。
照明パワーと浅いエンコーダーによるランダム シード生成を除いて、これらの光学生成モデルは新しい画像の合成中にコンピューティング パワーを消費しません。
我々は、それぞれ MNIST、ファッション MNIST、Butterflies-100、および Celeb-A データセットのデータ分布に従って、手書きの数字、ファッション製品、蝶、および人間の顔のモノクロおよびマルチカラーの新しい画像の光学生成を報告し、
全体的なパフォーマンスはデジタル ニューラル ネットワーク ベースの生成モデルに匹敵します。
光学生成モデルを実験的に実証するために、可視光を使用して、手書きの数字やファッション製品の新しい画像をスナップショットで生成しました。
これらの光生成モデルは、エネルギー効率が高く、スケーラブルで迅速な推論タスクへの道を切り開き、人工知能が生成するコンテンツの光学およびフォトニクスの可能性をさらに活用できる可能性があります。
要約(オリジナル)
Generative models cover various application areas, including image, video and music synthesis, natural language processing, and molecular design, among many others. As digital generative models become larger, scalable inference in a fast and energy-efficient manner becomes a challenge. Here, we present optical generative models inspired by diffusion models, where a shallow and fast digital encoder first maps random noise into phase patterns that serve as optical generative seeds for a desired data distribution; a jointly-trained free-space-based reconfigurable decoder all-optically processes these generative seeds to create novel images (never seen before) following the target data distribution. Except for the illumination power and the random seed generation through a shallow encoder, these optical generative models do not consume computing power during the synthesis of novel images. We report the optical generation of monochrome and multi-color novel images of handwritten digits, fashion products, butterflies, and human faces, following the data distributions of MNIST, Fashion MNIST, Butterflies-100, and Celeb-A datasets, respectively, achieving an overall performance comparable to digital neural network-based generative models. To experimentally demonstrate optical generative models, we used visible light to generate, in a snapshot, novel images of handwritten digits and fashion products. These optical generative models might pave the way for energy-efficient, scalable and rapid inference tasks, further exploiting the potentials of optics and photonics for artificial intelligence-generated content.
arxiv情報
著者 | Shiqi Chen,Yuhang Li,Hanlong Chen,Aydogan Ozcan |
発行日 | 2024-10-23 15:36:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google