ViPE: Visualise Pretty-much Everything

要約

比喩的な表現と非文字通りの表現は、人間のコミュニケーションに深く組み込まれています。
このような表現を視覚化することで、創造的な思考を伝え、微妙な感情を呼び起こすことができます。
一方、安定拡散のような最近のテキストから画像へのモデルは、非リテラル表現を表現するのに苦労しています。
最近の研究では主に、人間が注釈を付けたデータセットを小規模にコンパイルすることでこの問題に対処していますが、これには専門的な専門知識が必要であるだけでなく、非常に非効率であることが判明しています。
この問題に対処するために、ViPE: Visualize Pretty-much Everything を導入します。
ViPE は、暗黙の意味を表すノイズの多い視覚的な説明を含む大規模な歌詞セットでトレーニングされた一連の軽量で堅牢な言語モデルを提供します。
合成視覚的説明は、人間による注釈や画像に依存せず、GPT3.5 によって生成されます。
ViPE は、任意のテキストを効果的に視覚化可能な説明に表現し、意味のある高品質の画像生成を可能にします。
私たちは、ViPE がビジュアル エラボレーションの合成において GPT3.5 よりも堅牢であるという説得力のある証拠を提供します。
ViPE はまた、人間の専門家に匹敵する比喩表現の理解を示し、ミュージック ビデオやキャプション生成などの多くの下流アプリケーションに強力なオープンソース バックボーンを提供します。

要約(オリジナル)

Figurative and non-literal expressions are profoundly integrated in human communication. Visualising such expressions allow us to convey our creative thoughts, and evoke nuanced emotions. Recent text-to-image models like Stable Diffusion, on the other hand, struggle to depict non-literal expressions. Recent works primarily deal with this issue by compiling humanly annotated datasets on a small scale, which not only demands specialised expertise but also proves highly inefficient. To address this issue, we introduce ViPE: Visualise Pretty-much Everything. ViPE offers a series of lightweight and robust language models that have been trained on a large-scale set of lyrics with noisy visual descriptions that represent their implicit meaning. The synthetic visual descriptions are generated by GPT3.5 relying on neither human annotations nor images. ViPE effectively expresses any arbitrary piece of text into a visualisable description, enabling meaningful and high-quality image generation. We provide compelling evidence that ViPE is more robust than GPT3.5 in synthesising visual elaborations. ViPE also exhibits an understanding of figurative expressions comparable to human experts, providing a powerful and open-source backbone to many downstream applications such as music video and caption generation.

arxiv情報

著者 Hassan Shahmohammadi,Adhiraj Ghosh,Hendrik P. A. Lensch
発行日 2023-10-16 16:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク