Sequential Semantic Generative Communication for Progressive Text-to-Image Generation

要約

本稿では、マルチモーダル生成モデルの有望な生成機能を活用した通信システムの新しいフレームワークを提案します。
最近のスマート アプリケーションでは、テキスト プロンプトとして設定した知覚的な意味を伝えることで、コミュニケーションを成功させることができます。
テキストは、人間の認識と同様の方法で解釈されることにより、マルチモーダル技術を通じて画像を指示したり生成したりするように進化してきたため、画像データの適切な意味表現として機能します。
テキストを利用すると、そのままのデータそのものを送信する場合と比べて、過負荷を軽減することもできます。
送信機はマルチモデル生成プロセスを通じて対象画像をテキストに変換し、受信機はその逆のプロセスを使用して画像を再構成します。
テキスト文内の各単語にはそれぞれの構文上の役割があり、テキストに含まれる特定の情報を担当します。
通信負荷をさらに効率化するために、送信機は通信が成功するまで、最も多くの情報を運ぶワードを優先して送信します。
したがって、私たちの主な焦点は、画像からテキストへの変換に基づく通信システムの有望な設計と、単語トークンを順次送信するための提案されたスキームにあります。
私たちの研究は、最先端の生成モデルを実際の通信システムに利用する新たな道を開くことが期待されています

要約(オリジナル)

This paper proposes new framework of communication system leveraging promising generation capabilities of multi-modal generative models. Regarding nowadays smart applications, successful communication can be made by conveying the perceptual meaning, which we set as text prompt. Text serves as a suitable semantic representation of image data as it has evolved to instruct an image or generate image through multi-modal techniques, by being interpreted in a manner similar to human cognition. Utilizing text can also reduce the overload compared to transmitting the intact data itself. The transmitter converts objective image to text through multi-model generation process and the receiver reconstructs the image using reverse process. Each word in the text sentence has each syntactic role, responsible for particular piece of information the text contains. For further efficiency in communication load, the transmitter sequentially sends words in priority of carrying the most information until reaches successful communication. Therefore, our primary focus is on the promising design of a communication system based on image-to-text transformation and the proposed schemes for sequentially transmitting word tokens. Our work is expected to pave a new road of utilizing state-of-the-art generative models to real communication systems

arxiv情報

著者 Hyelin Nam,Jihong Park,Jinho Choi,Seong-Lyun Kim
発行日 2023-09-08 12:17:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.SP パーマリンク