-
最近の投稿
- Physical Reservoir Computing in Hook-Shaped Rover Wheel Spokes for Real-Time Terrain Identification
- Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models
- Multi-Sensor Fusion-Based Mobile Manipulator Remote Control for Intelligent Smart Home Assistance
- Integration of a Graph-Based Path Planner and Mixed-Integer MPC for Robot Navigation in Cluttered Environments
- Demonstrating CavePI: Autonomous Exploration of Underwater Caves by Semantic Guidance
-
最近のコメント
表示できるコメントはありません。 cs.AI (36829) cs.CL (27883) cs.CV (42623) cs.HC (2814) cs.LG (41781) cs.RO (21795) cs.SY (3320) eess.IV (4979) eess.SY (3312) stat.ML (5469)
「cs.MM」カテゴリーアーカイブ
GSVC: Efficient Video Representation and Compression Through 2D Gaussian Splatting
要約 3D ガウス スプラットは、静的な 3D シーンの革新的で効果的な学習され … 続きを読む
Sketch and Patch: Efficient 3D Gaussian Representation for Man-Made Scenes
要約 3D ガウス スプラッティング (3DGS) は、3D シーンのフォトリア … 続きを読む
SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation
要約 表情豊かな人間の姿勢と形状の推定 (EHPS) は、体、手、顔のモーション … 続きを読む
CLIP-PCQA: Exploring Subjective-Aligned Vision-Language Modeling for Point Cloud Quality Assessment
要約 近年、無参照点群品質評価 (NR-PCQA) 研究は大きな進歩を遂げていま … 続きを読む
Robust Change Captioning in Remote Sensing: SECOND-CC Dataset and MModalCC Framework
要約 リモート センシング変化キャプション (RSICC) は、両時間画像間の変 … 続きを読む
Frechet Music Distance: A Metric For Generative Symbolic Music Evaluation
要約 この論文では、コンピューター ビジョンの Frechet Inceptio … 続きを読む
Metric Learning with Progressive Self-Distillation for Audio-Visual Embedding Learning
要約 メトリクス学習はサンプルを埋め込み空間に投影し、そこで学習された表現に基づ … 続きを読む
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
要約 我々は、芸術作品の美しさを評価するためにマルチモーダルLLM(MLLM)の … 続きを読む
Audio-visual Deepfake Detection With Local Temporal Inconsistencies
要約 この論文では、オーディオとビジュアルのモダリティ間のきめ細かい時間的不一致 … 続きを読む