-
最近の投稿
- Scaling Multi Agent Reinforcement Learning for Underwater Acoustic Tracking via Autonomous Vehicles
- Reinforcement Learning-based Fault-Tolerant Control for Quadrotor with Online Transformer Adaptation
- Enhanced Importance Sampling through Latent Space Exploration in Normalizing Flows
- Enhancing Scene Coordinate Regression with Efficient Keypoint Detection and Sequential Information
- Constrained Factor Graph Optimization for Robust Networked Pedestrian Inertial Navigation
-
最近のコメント
表示できるコメントはありません。 cs.AI (38035) cs.CL (28747) cs.CV (43624) cs.HC (2908) cs.LG (42962) cs.RO (22623) cs.SY (3469) eess.IV (5057) eess.SY (3461) stat.ML (5597)
「cs.MM」カテゴリーアーカイブ
WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
要約 人間の意図に基づく水路の認識は、水環境での自律航行および無人水上車両 (U … 続きを読む
Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning
要約 クロスリンガルの画像キャプション付けは、マルチメディア分析におけるクロスリ … 続きを読む
WorDepth: Variational Language Prior for Monocular Depth Estimation
要約 単一の画像からの 3 次元 (3D) 再構成は、スケールなどの固有の曖昧さ … 続きを読む
WorDepth: Variational Language Prior for Monocular Depth Estimation
要約 1枚の画像からの3次元(3D)再構成は、スケールなどの曖昧さを内在する非投 … 続きを読む
Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss
要約 最近の研究では、イベントカメラによる高画質撮像の改善に焦点が当てられており … 続きを読む
DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement
要約 本稿では、ラベル付けされていない動画から生成されるイベントキャプションとそ … 続きを読む
MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response
要約 大規模言語モデル (LLM) は、マルチモーダルなアプリケーションにおいて … 続きを読む
MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music
要約 急速に進化するマルチモーダル大規模言語モデル (LLM) では、音楽の理解 … 続きを読む
カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7
MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music はコメントを受け付けていません
VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models
要約 テキストから画像への生成モデルの使用が急増しているため、著作権を侵害するコ … 続きを読む
MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models
要約 この論文は、会話におけるマルチモーダル感情原因分析に関する SemEval … 続きを読む