-
最近の投稿
- Grasp EveryThing (GET): 1-DoF, 3-Fingered Gripper with Tactile Sensing for Robust Grasping
- Neural Inertial Odometry from Lie Events
- Physical synchronization of soft self-oscillating limbs for fast and autonomous locomotion
- CRADMap: Applied Distributed Volumetric Mapping with 5G-Connected Multi-Robots and 4D Radar Perception
- Learning Rock Pushability on Rough Planetary Terrain
-
最近のコメント
表示できるコメントはありません。 cs.AI (38176) cs.CL (28850) cs.CV (43741) cs.HC (2915) cs.LG (43106) cs.RO (22722) cs.SY (3490) eess.IV (5071) eess.SY (3482) stat.ML (5612)
「cs.MM」カテゴリーアーカイブ
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model
要約 Large Audio-Language Model (LALM) は、音 … 続きを読む
The Sound of Water: Inferring Physical Properties from Pouring Liquids
要約 私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む
OneLLM: One Framework to Align All Modalities with Language
要約 マルチモーダル大規模言語モデル (MLLM) は、その強力なマルチモーダル … 続きを読む
Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer
要約 3D ビジュアライゼーション技術の進化により、デジタル コンテンツとのやり … 続きを読む
Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision
要約 デコードされたビットストリームは通常、人間またはマシンのニーズにのみ対応し … 続きを読む
Visual question answering: from early developments to recent advances — a survey
要約 Visual Question Answering (VQA) は、特徴抽 … 続きを読む
Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue
要約 対話における皮肉の説明 (SED) は、新しいながらもやりがいのあるタスク … 続きを読む
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset
要約 この論文では、マルチモーダルな理解と生成のための視覚・音声・言語オムニ知覚 … 続きを読む
VCEval: Rethinking What is a Good Educational Video and How to Automatically Evaluate It
要約 オンライン コースにより、教育へのアクセスの障壁は大幅に低くなりましたが、 … 続きを読む
Reviewing Intelligent Cinematography: AI research for camera-based video production
要約 この論文は、エンターテインメント目的での実際のカメラ コンテンツ取得のコン … 続きを読む