要約
具体的な知覚は、具体化されたエージェントが目視検査だけでは決定できないオブジェクトの物理的属性を理解するために不可欠です。
既存のアプローチは、身体的理解のために視覚的および言語のモダリティを進歩させていますが、実際の相互作用のために重要な触覚フィードバックを提供する触覚情報を効果的に組み込むことができません。
この論文では、Universal Visuo-Tactileビデオ(VTV)の最初のマルチモーダル大手言語モデルであるVTV-LLMを、触覚と自然言語のギャップを埋めることを理解しています。
クロスセンサーとクロスモーダル統合の課題に対処するために、4つの異なる触覚センサー(Gelsight Mini、Digit、およびTAC3D)でキャプチャされた100の多様なオブジェクトから150,000のビデオフレームを含む包括的なデータセットであるVTV150Kを貢献し、4つの基本的な触覚属性(硬度、プロトリューション、弾性、および骨折)で注釈を付けます。
堅牢な視覚視力表現のVTV強化、クロスモーダル対応のためのVTVテキストアライメント、および自然言語生成のための微調整をテキスト促進する新しい3段階トレーニングパラダイムを開発します。
当社のフレームワークにより、機能評価、比較分析、シナリオベースの意思決定など、洗練された触覚推論機能が可能になります。
実験的評価は、VTV-LLMが触覚ビデオ理解タスクで優れたパフォーマンスを達成し、触覚ドメインでより直感的なヒューマシン相互作用の基礎を確立することを示しています。
要約(オリジナル)
Tactile perception is essential for embodied agents to understand physical attributes of objects that cannot be determined through visual inspection alone. While existing approaches have made progress in visual and language modalities for physical understanding, they fail to effectively incorporate tactile information that provides crucial haptic feedback for real-world interaction. In this paper, we present VTV-LLM, the first multi-modal large language model for universal Visuo-Tactile Video (VTV) understanding that bridges the gap between tactile perception and natural language. To address the challenges of cross-sensor and cross-modal integration, we contribute VTV150K, a comprehensive dataset comprising 150,000 video frames from 100 diverse objects captured across three different tactile sensors (GelSight Mini, DIGIT, and Tac3D), annotated with four fundamental tactile attributes (hardness, protrusion, elasticity, and friction). We develop a novel three-stage training paradigm that includes VTV enhancement for robust visuo-tactile representation, VTV-text alignment for cross-modal correspondence, and text prompt finetuning for natural language generation. Our framework enables sophisticated tactile reasoning capabilities including feature assessment, comparative analysis, scenario-based decision making and so on. Experimental evaluations demonstrate that VTV-LLM achieves superior performance in tactile video understanding tasks, establishing a foundation for more intuitive human-machine interaction in tactile domains.
arxiv情報
著者 | Yifan Xie,Mingyang Li,Shoujie Li,Xingting Li,Guangyu Chen,Fei Ma,Fei Richard Yu,Wenbo Ding |
発行日 | 2025-05-28 16:43:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google