-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Boosting Diffusion Models with Moving Average Sampling in Frequency Domain
要約 拡散モデルは最近、画像生成に強力な革命をもたらしました。 これらのモデルの … 続きを読む
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation
要約 視聴覚セグメンテーション (AVS) は、視聴覚キューに基づいて音を発する … 続きを読む
Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models
要約 この論文では、効率的注意スキッピング (EAS) と呼ばれる、マルチモーダ … 続きを読む
FunQA: Towards Surprising Video Comprehension
要約 面白いクリップ、創造的なパフォーマンス、視覚的な錯覚など、驚くべきビデオは … 続きを読む
MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition
要約 顕著な進歩にもかかわらず、音声感情認識 (SER) は、特に野生の世界では … 続きを読む
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
要約 ビデオ間の編集には、ソース ビデオを追加のコントロール (テキスト プロン … 続きを読む
Bringing Robots Home: The Rise of AI Robots in Consumer Electronics
要約 2024 年 3 月 18 日、NVIDIA は、人型ロボットのトレーニン … 続きを読む
AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks
要約 ビデオ間の編集には、ソース ビデオを追加のコントロール (テキスト プロン … 続きを読む
IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting
要約 ビデオ アクション カウンティング (VAC) は、ビデオ内の反復アクショ … 続きを読む
DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance
要約 振付師はダンスがどのようなものかを決定し、カメラマンはダンスの最終的なプレ … 続きを読む