-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Distilling Generative-Discriminative Representations for Very Low-Resolution Face Recognition
要約 非常に低解像度の顔認識は、解像度の低下により情報となる顔の詳細が大幅に失わ … 続きを読む
Benchmarking Sub-Genre Classification For Mainstage Dance Music
要約 音楽の分類は、幅広い用途に対応しており、音楽情報の検索において最も重要なタ … 続きを読む
Question-Answering Dense Video Events
要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む
Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis
要約 テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning
要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む
HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR
要約 大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む
Question-Answering Dense Video Events
要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む
Question-Answering Dense Video Events
要約 マルチモーダル大規模言語モデル (MLLM) は、単一イベント ビデオの質 … 続きを読む
HiSC4D: Human-centered interaction and 4D Scene Capture in Large-scale Space Using Wearable IMUs and LiDAR
要約 大規模な屋内と屋外のシーン、多様な人間の動き、豊かな人間と人間の相互作用、 … 続きを読む
LAR-IQA: A Lightweight, Accurate, and Robust No-Reference Image Quality Assessment Model
要約 深層学習技術を使用した非参照画像品質評価 (NR-IQA) 分野の最近の進 … 続きを読む