-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
GalleryGPT: Analyzing Paintings with Large Multimodal Models
要約 作品分析は、個人の美的感性を豊かにし、批評的思考能力を促進する、美術鑑賞の … 続きを読む
Learned Compression of Point Cloud Geometry and Attributes in a Single Model through Multimodal Rate-Control
要約 点群圧縮は、必要なストリーミングデータレートを大幅に削減するため、ボリュー … 続きを読む
Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio
要約 音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネス モ … 続きを読む
KeyVideoLLM: Towards Large-scale Video Keyframe Selection
要約 最近、Web ビデオの台頭により、大規模なビデオ データセットの管理と理解 … 続きを読む
Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation
要約 言語に似た記号音楽は、個別の記号でエンコードできます。 最近の研究では、G … 続きを読む
Open-Vocabulary Audio-Visual Semantic Segmentation
要約 オーディオビジュアル セマンティック セグメンテーション (AVSS) は … 続きを読む
Learning Video Context as Interleaved Multimodal Sequences
要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む
Versatile audio-visual learning for emotion recognition
要約 現在のオーディオビジュアル感情認識モデルのほとんどは、実際のアプリケーショ … 続きを読む
Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation
要約 Radiology Report Generation (RRG) は、生 … 続きを読む