Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes

要約

次の質問をすることにより、3Dシーンの再構成をインタラクティブに再構築する問題を調査します。シーンと物理的に相互作用する人間の手の音を予測できますか?
まず、3Dシーン内で手を使用して人間の操作オブジェクトのビデオを録画します。
次に、これらのアクションサウンドペアを使用して、修正フローモデルをトレーニングして、3Dハンド軌跡を対応するオーディオにマッピングします。
テスト時に、ユーザーは、対応するサウンドを推定するために、ハンドポーズのシーケンスとしてパラメーター化された他のアクションのモデルを照会できます。
私たちの実験では、生成された音が材料の特性とアクションを正確に伝え、それらはしばしば人間のオブザーバーにとって実際の音と見分けがつかないことがわかります。
プロジェクトページ:https://www.yimingdou.com/hearing_hands/

要約(オリジナル)

We study the problem of making 3D scene reconstructions interactive by asking the following question: can we predict the sounds of human hands physically interacting with a scene? First, we record a video of a human manipulating objects within a 3D scene using their hands. We then use these action-sound pairs to train a rectified flow model to map 3D hand trajectories to their corresponding audio. At test time, a user can query the model for other actions, parameterized as sequences of hand poses, to estimate their corresponding sounds. In our experiments, we find that our generated sounds accurately convey material properties and actions, and that they are often indistinguishable to human observers from real sounds. Project page: https://www.yimingdou.com/hearing_hands/

arxiv情報

著者 Yiming Dou,Wonseok Oh,Yuqing Luo,Antonio Loquercio,Andrew Owens
発行日 2025-06-11 17:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク