An attempt to generate new bridge types from latent space of PixelCNN

要約

生成人工知能テクノロジーを使用して、新しい種類の橋を生成してみます。
Python プログラミング言語、TensorFlow、および Keras 深層学習プラットフォーム フレームワークに基づいた 3 径間梁橋、アーチ橋、斜張橋、吊り橋の対称構造画像データセットを使用して、PixelCNN が構築およびトレーニングされます。
このモデルは画像の統計構造をキャプチャし、前のピクセルが与えられた場合に次のピクセルの確率分布を計算できます。
取得された潜在空間サンプリングから、トレーニング データセットとは異なる新しいタイプのブリッジを生成できます。
PixelCNNは、人間本来の橋梁タイプをベースに、さまざまな構造コンポーネントを有機的に組み合わせて、ある程度の人間本来の能力を備えた新しい橋梁タイプを作成することができます。
自己回帰モデルはシーケンスの意味を理解できませんが、マルチモーダル モデルは回帰モデルと自己回帰モデルを組み合わせてシーケンスを理解します。
マルチモーダル モデルは、将来的に汎用人工知能を実現する方法となるはずです。

要約(オリジナル)

Try to generate new bridge types using generative artificial intelligence technology. Using symmetric structured image dataset of three-span beam bridge, arch bridge, cable-stayed bridge and suspension bridge , based on Python programming language, TensorFlow and Keras deep learning platform framework , PixelCNN is constructed and trained. The model can capture the statistical structure of the images and calculate the probability distribution of the next pixel when the previous pixels are given. From the obtained latent space sampling, new bridge types different from the training dataset can be generated. PixelCNN can organically combine different structural components on the basis of human original bridge types, creating new bridge types that have a certain degree of human original ability. Autoregressive models cannot understand the meaning of the sequence, while multimodal models combine regression and autoregressive models to understand the sequence. Multimodal models should be the way to achieve artificial general intelligence in the future.

arxiv情報

著者 Hongjun Zhang
発行日 2024-01-11 15:06:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク