-
最近の投稿
- Nearest-Neighbourless Asymptotically Optimal Motion Planning with Fully Connected Informed Trees (FCIT*)
- Performance assessment of ADAS in a representative subset of critical traffic situations
- Exciting Contact Modes in Differentiable Simulations for Robot Learning
- Can LLMs plan paths in the real world?
- DECODE: Domain-aware Continual Domain Expansion for Motion Prediction
-
最近のコメント
表示できるコメントはありません。 cs.AI (30257) cs.CL (22857) cs.CR (2346) cs.CV (36632) cs.LG (35077) cs.RO (17603) cs.SY (2704) eess.IV (4458) eess.SY (2698) stat.ML (4675)
「cs.MM」カテゴリーアーカイブ
WorDepth: Variational Language Prior for Monocular Depth Estimation
要約 1枚の画像からの3次元(3D)再構成は、スケールなどの曖昧さを内在する非投 … 続きを読む
Event Camera Demosaicing via Swin Transformer and Pixel-focus Loss
要約 最近の研究では、イベントカメラによる高画質撮像の改善に焦点が当てられており … 続きを読む
DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement
要約 本稿では、ラベル付けされていない動画から生成されるイベントキャプションとそ … 続きを読む
MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response
要約 大規模言語モデル (LLM) は、マルチモーダルなアプリケーションにおいて … 続きを読む
MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music
要約 急速に進化するマルチモーダル大規模言語モデル (LLM) では、音楽の理解 … 続きを読む
カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7
MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music はコメントを受け付けていません
VA3: Virtually Assured Amplification Attack on Probabilistic Copyright Protection for Text-to-Image Generative Models
要約 テキストから画像への生成モデルの使用が急増しているため、著作権を侵害するコ … 続きを読む
MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models
要約 この論文は、会話におけるマルチモーダル感情原因分析に関する SemEval … 続きを読む
Self-Adaptive Sampling for Efficient Video Question-Answering on Image–Text Models
要約 ビデオの質問応答は、ビデオ理解の分野における基本的なタスクです。 Vide … 続きを読む
Break-for-Make: Modular Low-Rank Adaptations for Composable Content-Style Customization
要約 パーソナライズされた生成パラダイムにより、デザイナーは、いくつかの画像に対 … 続きを読む
WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar
要約 人間の意図に基づく水路の認識は、水環境での自律航行および無人水上車両 (U … 続きを読む