要約
私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎となる物理学との関係を研究します。
液体を容器に注ぐ音だけを与えて、液体のレベル、容器の形状とサイズ、注ぐ速度、充填時間などの物理的特性を自動的に推測することが私たちの目的です。
この目的を達成するために、(i) これらの特性が基本周波数 (ピッチ) から決定できることを理論的に示します。
(ii) 物理学にヒントを得た目的で、シミュレートされたデータと視覚データから監視してピッチ検出モデルをトレーニングします。
(iii) 体系的な研究のために実際の注水ビデオの新しい大規模なデータセットを導入する。
(iv) トレーニングされたモデルが実際のデータのこれらの物理的特性を実際に推論できることを示します。
そして最後に、(v) さまざまなコンテナ形状、他のデータセット、および実際の YouTube ビデオに対する強力な一般化を示します。
私たちの研究は、音響、物理学、学習が交わる狭いながらも豊かな問題に対する鋭い理解を示しています。
これにより、ロボットによる注出における多感覚認識を強化するためのアプリケーションが開かれます。
要約(オリジナル)
We study the connection between audio-visual observations and the underlying physics of a mundane yet intriguing everyday activity: pouring liquids. Given only the sound of liquid pouring into a container, our objective is to automatically infer physical properties such as the liquid level, the shape and size of the container, the pouring rate and the time to fill. To this end, we: (i) show in theory that these properties can be determined from the fundamental frequency (pitch); (ii) train a pitch detection model with supervision from simulated data and visual data with a physics-inspired objective; (iii) introduce a new large dataset of real pouring videos for a systematic study; (iv) show that the trained model can indeed infer these physical properties for real data; and finally, (v) we demonstrate strong generalization to various container shapes, other datasets, and in-the-wild YouTube videos. Our work presents a keen understanding of a narrow yet rich problem at the intersection of acoustics, physics, and learning. It opens up applications to enhance multisensory perception in robotic pouring.
arxiv情報
著者 | Piyush Bagad,Makarand Tapaswi,Cees G. M. Snoek,Andrew Zisserman |
発行日 | 2025-01-13 18:20:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google