-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.MM」カテゴリーアーカイブ
DreamMesh: Jointly Manipulating and Texturing Triangle Meshes for Text-to-3D Generation
要約 強力な 2D 拡散モデルを使用した放射輝度フィールド (NeRF) の学習 … 続きを読む
Distilling Generative-Discriminative Representations for Very Low-Resolution Face Recognition
要約 非常に低解像度の顔認識は、解像度の低下により情報となる顔の詳細が大幅に失わ … 続きを読む
Benchmarking Sub-Genre Classification For Mainstage Dance Music
要約 音楽の分類は、幅広い用途に対応しており、音楽情報の検索において最も重要なタ … 続きを読む
Question-Answering Dense Video Events
要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis
要約 テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning
要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む
HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR
要約 大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む
Question-Answering Dense Video Events
要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む
Question-Answering Dense Video Events
要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む
HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR
要約 大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む