-
最近の投稿
- Human2Robot: Learning Robot Actions from Paired Human-Robot Videos
- Co-MTP: A Cooperative Trajectory Prediction Framework with Multi-Temporal Fusion for Autonomous Driving
- Improving Monocular Visual-Inertial Initialization with Structureless Visual-Inertial Bundle Adjustment
- MetaSym: A Symplectic Meta-learning Framework for Physical Intelligence
- Phase-Independent Dynamic Movement Primitives With Applications to Human-Robot Co-manipulation and Time Optimal Planning
-
最近のコメント
表示できるコメントはありません。 cs.AI (34175) cs.CL (25835) cs.CR (2628) cs.CV (40083) cs.LG (39169) cs.RO (19945) cs.SY (3034) eess.IV (4770) eess.SY (3028) stat.ML (5169)
「cs.MM」カテゴリーアーカイブ
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models
要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む
Improving Visual Object Tracking through Visual Prompting
要約 一般的な視覚オブジェクトの追跡には、ターゲットを周囲の気を散らすものから区 … 続きを読む
A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios
要約 ほとんどのレコメンダー システムは協調フィルタリング (CF) を採用し、 … 続きを読む
Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations
要約 音声と音楽からの感情認識には、音響的な重複があるため類似点があり、これらの … 続きを読む
Exploring Event-based Human Pose Estimation with 3D Event Representations
要約 人間の姿勢推定は、コンピューター ビジョンにおける基本的かつ魅力的なタスク … 続きを読む
Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling
要約 ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む
HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection
要約 オープン語彙オブジェクト検出 (OVD) モデルは、その広範なトレーニング … 続きを読む
MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion
要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む
Vista3D: Unravel the 3D Darkside of a Single Image
要約 私たちは、目に見える部分を垣間見るだけで、オブジェクトの隠された次元を明ら … 続きを読む