Robot Synesthesia: A Sound and Emotion Guided AI Painter

要約

絵が千の言葉を表現するなら、音は百万の言葉を語るかもしれません。
最近のロボットによる絵画や画像合成の手法は、テキスト入力からビジュアルを生成する点では進歩を遂げていますが、音を画像に変換することはほとんど未開発です。
一般に、サウンドベースのインターフェイスと音響インタラクションは、ユーザーのアクセシビリティとコントロールを拡張し、複雑な感情や現実世界の動的な側面を伝える手段を提供する可能性を秘めています。
この論文では、音と音声を使用してロボットの絵画プロセスをガイドするアプローチ (ここではロボット共感覚として知られています) を提案します。
一般的なサウンドの場合、シミュレートされた絵画をエンコードし、同じ潜在空間にサウンドを入力します。
音声については、音声を文字に起こしたテキストと音声の調子に分離します。
私たちはテキストを使って内容をコントロールするのに対し、トーンから感情を推測して絵の雰囲気を導きます。
私たちのアプローチは、ロボット ペイント フレームワークである FRIDA と完全に統合されており、テキストやスタイルなどの FRIDA の既存の入力モダリティにサウンドと音声が追加されています。
2 つの調査で、参加者は、特定の絵画を生成するために使用された感情や自然音を、ランダムな確率の 2 倍以上の確率で正確に推測することができました。
音声ガイドによる画像操作と音楽ガイドによる絵画について、結果を定性的に議論します。

要約(オリジナル)

If a picture paints a thousand words, sound may voice a million. While recent robotic painting and image synthesis methods have achieved progress in generating visuals from text inputs, the translation of sound into images is vastly unexplored. Generally, sound-based interfaces and sonic interactions have the potential to expand accessibility and control for the user and provide a means to convey complex emotions and the dynamic aspects of the real world. In this paper, we propose an approach for using sound and speech to guide a robotic painting process, known here as robot synesthesia. For general sound, we encode the simulated paintings and input sounds into the same latent space. For speech, we decouple speech into its transcribed text and the tone of the speech. Whereas we use the text to control the content, we estimate the emotions from the tone to guide the mood of the painting. Our approach has been fully integrated with FRIDA, a robotic painting framework, adding sound and speech to FRIDA’s existing input modalities, such as text and style. In two surveys, participants were able to correctly guess the emotion or natural sound used to generate a given painting more than twice as likely as random chance. On our sound-guided image manipulation and music-guided paintings, we discuss the results qualitatively.

arxiv情報

著者 Vihaan Misra,Peter Schaldenbrand,Jean Oh
発行日 2025-01-13 18:18:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク