-
最近の投稿
- Lasso Gripper: A String Shooting-Retracting Mechanism for Shape-Adaptive Grasping
- TACS-Graphs: Traversability-Aware Consistent Scene Graphs for Ground Robot Indoor Localization and Mapping
- Non-Overlap-Aware Egocentric Pose Estimation for Collaborative Perception in Connected Autonomy
- Hard Contacts with Soft Gradients: Refining Differentiable Simulators for Learning and Control
- AMPLIFY: Actionless Motion Priors for Robot Learning from Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (39812) cs.CL (30135) cs.CV (45122) cs.HC (3045) cs.LG (44743) cs.RO (23829) cs.SY (3627) eess.IV (5166) eess.SY (3619) stat.ML (5821)
「cs.MM」カテゴリーアーカイブ
Does CLIP perceive art the same way we do?
要約 クリップは、関節の埋め込みを介して画像やテキストを接続できる強力なマルチモ … 続きを読む
Automatic Music Transcription using Convolutional Neural Networks and Constant-Q transform
要約 自動音楽転写(AMT)は、音楽のオーディオ録音を分析し、再生されているメモ … 続きを読む
Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
要約 オーディオSDSを紹介します。オーディオSDは、テキストコンディショニング … 続きを読む
Question-Answering Dense Video Events
要約 このペーパーでは、密集したビデオイベントに関する質問を提示します。これは、 … 続きを読む
‘I Can See Forever!’: Evaluating Real-time VideoLLMs for Assisting Individuals with Visual Impairments
要約 視覚障害のある人口、特に重度の視覚障害者は現在大きく、日々の活動は彼らにと … 続きを読む
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling
要約 この作業では、ビデオのみで条件付けられた音楽生成を体系的に研究しています。 … 続きを読む
EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning
要約 マルチモーダル大手言語モデル(MLLM)は、テキスト、ビジョン、オーディオ … 続きを読む
PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model
要約 オーディオ駆動型のヒューマンアニメーションテクノロジーは、ヒューマンコンピ … 続きを読む
Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models
要約 音楽言語モデルの出現により、AIシステムの自動音楽生成能力が大幅に向上しま … 続きを読む
PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model
要約 オーディオ駆動型のヒューマンアニメーションテクノロジーは、ヒューマンコンピ … 続きを読む