要約
音声から画像への変換の目的は、音声信号から直接フォトリアリスティックな画像を生成することです。
最近、さまざまな研究がこのタスクに焦点を当てており、有望なパフォーマンスが達成されています。
しかし、現在の音声から画像へのアプローチは、スタックされたモジュラー フレームワークに基づいており、次の 3 つの重大な問題があります。 1) 個別のネットワークのトレーニングには時間がかかり、非効率的であり、最終的な生成モデルの収束は以前のジェネレーターに大きく依存します。
;
2) このアーキテクチャではプリカーサー画像の品質は無視されます。
3) 複数の識別ネットワークをトレーニングする必要があります。
この目的を達成するために、与えられた音声説明に基づいて知覚的にもっともらしく、意味的に一貫した画像サンプルを生成する、Fusion-S2iGan と呼ばれる効率的かつ効果的な単一段階のフレームワークを提案します。
Fusion-S2iGan は、ピクセル アテンション モジュール (PAM)、音声変調モジュール (SMM)、重み付け融合モジュール (WFM) で構築されたビジュアル + 音声融合モジュール (VSFM) を導入し、音声埋め込みを挿入します。
合成画像の品質を向上させながら、音声エンコーダをジェネレータに組み込むことができます。
Fusion-S2iGan は、バイモーダル情報をジェネレーター ネットワークのすべてのレイヤーに広げて、アーキテクチャ内のさまざまな階層レベルで視覚的特徴マップを強化します。
4 つのベンチマーク データセット、つまり CUB 鳥、Oxford-102、Flickr8k、Places-subset に対して一連の実験を実行します。
実験結果は、マルチステージ アーキテクチャと従来のテキストから画像へのアプローチに近いパフォーマンス レベルを備えた最先端のモデルと比較して、提示された Fusion-S2iGan の優位性を示しています。
要約(オリジナル)
The goal of a speech-to-image transform is to produce a photo-realistic picture directly from a speech signal. Recently, various studies have focused on this task and have achieved promising performance. However, current speech-to-image approaches are based on a stacked modular framework that suffers from three vital issues: 1) Training separate networks is time-consuming as well as inefficient and the convergence of the final generative model strongly depends on the previous generators; 2) The quality of precursor images is ignored by this architecture; 3) Multiple discriminator networks are required to be trained. To this end, we propose an efficient and effective single-stage framework called Fusion-S2iGan to yield perceptually plausible and semantically consistent image samples on the basis of given spoken descriptions. Fusion-S2iGan introduces a visual+speech fusion module (VSFM), constructed with a pixel-attention module (PAM), a speech-modulation module (SMM) and a weighted-fusion module (WFM), to inject the speech embedding from a speech encoder into the generator while improving the quality of synthesized pictures. Fusion-S2iGan spreads the bimodal information over all layers of the generator network to reinforce the visual feature maps at various hierarchical levels in the architecture. We conduct a series of experiments on four benchmark data sets, i.e., CUB birds, Oxford-102, Flickr8k and Places-subset. The experimental results demonstrate the superiority of the presented Fusion-S2iGan compared to the state-of-the-art models with a multi-stage architecture and a performance level that is close to traditional text-to-image approaches.
arxiv情報
著者 | Zhenxing Zhang,Lambert Schomaker |
発行日 | 2023-05-17 11:12:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google