HapticVLM: VLM-Driven Texture Recognition Aimed at Intelligent Haptic Interaction

要約

このペーパーでは、リアルタイムの触覚フィードバックを可能にするためにビジョン言語の推論を深い畳み込みネットワークと統合する新しいマルチモーダルシステムであるHapticVLMを紹介します。
HAPTICVLMは、コンベントベースの材料認識モジュールを活用して、オブジェクト材料の正確な識別のための堅牢な視覚埋め込みを生成し、一方、最先端の視覚言語モデル(QWEN2-VL-2B-instruct)を環境キューから周囲温度に導きます。
このシステムは、スピーカーを介して振動触覚フィードバックを提供し、ペルティエモジュールを介して熱キューを提供することにより、触覚感覚を合成し、それにより視覚的知覚と触覚経験のギャップを埋めます。
実験的評価は、5つの異なる聴覚触覚パターンで84.67%の平均認識精度と、15のシナリオで8 {\ deg} c誤差のマージンを持つ許容範囲ベースの評価方法に基づいて86.7%の温度推定精度を示しています。
有望ですが、現在の研究は、顕著なパターンの小さなセットと控えめな参加者プールを使用することにより制限されています。
将来の作業は、触覚パターンの範囲を拡大し、ユーザー調査を増やして、システムのパフォーマンスをさらに改善および検証することに焦点を当てます。
全体として、HapticVLMは、仮想現実および支援技術における潜在的なアプリケーションとのコンテキストに対応するマルチモーダルな触覚相互作用に向けた重要なステップを提示します。

要約(オリジナル)

This paper introduces HapticVLM, a novel multimodal system that integrates vision-language reasoning with deep convolutional networks to enable real-time haptic feedback. HapticVLM leverages a ConvNeXt-based material recognition module to generate robust visual embeddings for accurate identification of object materials, while a state-of-the-art Vision-Language Model (Qwen2-VL-2B-Instruct) infers ambient temperature from environmental cues. The system synthesizes tactile sensations by delivering vibrotactile feedback through speakers and thermal cues via a Peltier module, thereby bridging the gap between visual perception and tactile experience. Experimental evaluations demonstrate an average recognition accuracy of 84.67% across five distinct auditory-tactile patterns and a temperature estimation accuracy of 86.7% based on a tolerance-based evaluation method with an 8{\deg}C margin of error across 15 scenarios. Although promising, the current study is limited by the use of a small set of prominent patterns and a modest participant pool. Future work will focus on expanding the range of tactile patterns and increasing user studies to further refine and validate the system’s performance. Overall, HapticVLM presents a significant step toward context-aware, multimodal haptic interaction with potential applications in virtual reality, and assistive technologies.

arxiv情報

著者 Muhammad Haris Khan,Miguel Altamirano Cabrera,Dmitrii Iarchuk,Yara Mahmoud,Daria Trinitatova,Issatay Tokmurziyev,Dzmitry Tsetserukou
発行日 2025-05-05 11:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO パーマリンク