-
最近の投稿
- Generalizing Safety Beyond Collision-Avoidance via Latent-Space Reachability Analysis
- AI-Enhanced Automatic Design of Efficient Underwater Gliders
- Safe Navigation in Dynamic Environments Using Data-Driven Koopman Operators and Conformal Prediction
- Future-Oriented Navigation: Dynamic Obstacle Avoidance with One-Shot Energy-Based Multimodal Motion Prediction
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (37465) cs.CL (28340) cs.CV (43135) cs.HC (2865) cs.LG (42385) cs.RO (22230) cs.SY (3405) eess.IV (5014) eess.SY (3397) stat.ML (5531)
「cs.MM」カテゴリーアーカイブ
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
要約 テキストガイド付きビデオ予測 (TVP) には、指示に従って最初のフレーム … 続きを読む
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations
要約 音声言語領域におけるマルチモーダル学習は、近年大幅な進歩を遂げています。 … 続きを読む
MA-AVT: Modality Alignment for Parameter-Efficient Audio-Visual Transformers
要約 事前トレーニングされたビジョントランスフォーマーの最近の進歩により、音声の … 続きを読む
The Revolution of Multimodal Large Language Models: A Survey
要約 テキストとビジュアルモダリティを結び付けることは、生成知能において重要な役 … 続きを読む
ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation
要約 マルチシェイプ表現(複数のオブジェクトを「パッキング」する単一モデル)のた … 続きを読む
VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling
要約 この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。 まず、 … 続きを読む
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding
要約 大規模視覚言語モデル (LVLM) は、視覚入力から状況に応じて詳細で一貫 … 続きを読む
Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption
要約 最近の生成画像圧縮方法は、レートと歪みと知覚のトレードオフの最適化において … 続きを読む
Progressive Confident Masking Attention Network for Audio-Visual Segmentation
要約 通常、オーディオ信号とビジュアル信号は同時に発生し、人間はこれら 2 つの … 続きを読む
Edit As You Wish: Video Caption Editing with Multi-grained User Control
要約 ユーザの要求に応じて自然言語で自動的にナレーションを行うこと、すなわち、制 … 続きを読む