-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
WorDepth: Variational Language Prior for Monocular Depth Estimation
要約 単一の画像からの 3 次元 (3D) 再構成は、スケールなどの固有の曖昧さ … 続きを読む
WorDepth: Variational Language Prior for Monocular Depth Estimation
要約 1枚の画像からの3次元(3D)再構成は、スケールなどの曖昧さを内在する非投 … 続きを読む
Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss
要約 最近の研究では、イベントカメラによる高画質撮像の改善に焦点が当てられており … 続きを読む
DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement
要約 本稿では、ラベル付けされていない動画から生成されるイベントキャプションとそ … 続きを読む
MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response
要約 大規模言語モデル (LLM) は、マルチモーダルなアプリケーションにおいて … 続きを読む
MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music
要約 急速に進化するマルチモーダル大規模言語モデル (LLM) では、音楽の理解 … 続きを読む
カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7
MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music はコメントを受け付けていません
VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models
要約 テキストから画像への生成モデルの使用が急増しているため、著作権を侵害するコ … 続きを読む
MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models
要約 この論文は、会話におけるマルチモーダル感情原因分析に関する SemEval … 続きを読む
Self-Adaptive Sampling for Efficient Video Question-Answering on Image–Text Models
要約 ビデオの質問応答は、ビデオ理解の分野における基本的なタスクです。 Vide … 続きを読む
Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization
要約 パーソナライズされた生成パラダイムにより、デザイナーは、いくつかの画像に対 … 続きを読む