Generating Visual Scenes from Touch

要約

新たな研究分野では、タッチからもっともらしいイメージを生成しようとしています。
しかし、既存のアプローチは視覚触覚合成問題の狭い側面にのみ取り組んでおり、他の領域におけるクロスモーダル合成法の品質に大きく遅れをとっています。
私たちは、潜在的な拡散における最近の進歩を活用して、触覚信号から画像を合成するためのモデル (またはその逆) を作成し、それを多くの視覚触覚合成タスクに適用します。
このモデルを使用すると、触覚主導の様式化問題、つまりタッチ信号に一致するように画像を操作するという以前の研究を大幅に上回り、シーンに関する追加の情報源を使用せずにタッチから画像を生成することに初めて成功しました。
また、モデルを使用して、タッチ センサーやタッチ センサーを保持する手を含まない画像の生成、および反射率とタッチから画像のシェーディングを推定するという 2 つの新しい合成問題に対処することに成功しました。

要約(オリジナル)

An emerging line of work has sought to generate plausible imagery from touch. Existing approaches, however, tackle only narrow aspects of the visuo-tactile synthesis problem, and lag significantly behind the quality of cross-modal synthesis methods in other domains. We draw on recent advances in latent diffusion to create a model for synthesizing images from tactile signals (and vice versa) and apply it to a number of visuo-tactile synthesis tasks. Using this model, we significantly outperform prior work on the tactile-driven stylization problem, i.e., manipulating an image to match a touch signal, and we are the first to successfully generate images from touch without additional sources of information about the scene. We also successfully use our model to address two novel synthesis problems: generating images that do not contain the touch sensor or the hand holding it, and estimating an image’s shading from its reflectance and touch.

arxiv情報

著者 Fengyu Yang,Jiacheng Zhang,Andrew Owens
発行日 2023-09-26 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク