Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset

要約

触覚は、人間とロボットの両方の知覚能力と対話能力に重要なサポートと強化を提供します。
それにもかかわらず、接触に関連するマルチモーダルな研究は主に視覚と触覚のモダリティに焦点を当てており、言語の領域での探求は限られています。
語彙を超えて、文レベルの説明にはより豊富な意味論が含まれます。
これに基づいて、マルチモードアライメントのための文レベルの記述を特徴とする、ヒューマンマシンカスケードコラボレーションにより、TLV (Touch-Language-Vision) と呼ばれるタッチ言語ビジョンデータセットを構築します。
新しいデータセットは、私たちが提案する軽量トレーニング フレームワークである TLV-Link (アライメントによるタッチ、言語、視覚のリンク) を微調整するために使用され、最小限のパラメーター調整 (1%) で効果的なセマンティック アライメントを実現します。
プロジェクトページ: https://xiaoen0.github.io/touch.page/。

要約(オリジナル)

Tactility provides crucial support and enhancement for the perception and interaction capabilities of both humans and robots. Nevertheless, the multimodal research related to touch primarily focuses on visual and tactile modalities, with limited exploration in the domain of language. Beyond vocabulary, sentence-level descriptions contain richer semantics. Based on this, we construct a touch-language-vision dataset named TLV (Touch-Language-Vision) by human-machine cascade collaboration, featuring sentence-level descriptions for multimode alignment. The new dataset is used to fine-tune our proposed lightweight training framework, TLV-Link (Linking Touch, Language, and Vision through Alignment), achieving effective semantic alignment with minimal parameter adjustments (1%). Project Page: https://xiaoen0.github.io/touch.page/.

arxiv情報

著者 Ning Cheng,You Li,Jing Gao,Bin Fang,Jinan Xu,Wenjuan Han
発行日 2024-05-10 12:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク