-
最近の投稿
- Generalizing Safety Beyond Collision-Avoidance via Latent-Space Reachability Analysis
- AI-Enhanced Automatic Design of Efficient Underwater Gliders
- Safe Navigation in Dynamic Environments Using Data-Driven Koopman Operators and Conformal Prediction
- Future-Oriented Navigation: Dynamic Obstacle Avoidance with One-Shot Energy-Based Multimodal Motion Prediction
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (37465) cs.CL (28340) cs.CV (43135) cs.HC (2865) cs.LG (42385) cs.RO (22230) cs.SY (3405) eess.IV (5014) eess.SY (3397) stat.ML (5531)
「cs.MM」カテゴリーアーカイブ
Taming Data and Transformers for Audio Generation
要約 環境音や環境効果の生成は、データ不足とキャプションの品質が不十分なことが多 … 続きを読む
SonicSense: Object Perception from In-Hand Acoustic Vibration
要約 SonicSense は、ハードウェアとソフトウェアの総合的な設計であり、 … 続きを読む
Videogenic: Identifying Highlight Moments in Videos with Professional Photographs as a Prior
要約 この論文では、ビデオからハイライトの瞬間を抽出するという課題について調査し … 続きを読む
VideoMap: Supporting Video Editing Exploration, Brainstorming, and Prototyping in the Latent Space
要約 ビデオ編集は創造的かつ複雑な作業であり、ビデオ編集の創造性と探索性をより適 … 続きを読む
Soundify: Matching Sound Effects to Video
要約 ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む
MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization
要約 事前トレーニングされたモデルは、追加コストがかかるものの、音声認識における … 続きを読む
LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression
要約 有効受容野 (ERF) は、変換コーディングにおいて重要な役割を果たします … 続きを読む
Image Conductor: Precision Control for Interactive Video Synthesis
要約 映画制作やアニメーション制作では、多くの場合、カメラのトランジションやオブ … 続きを読む
Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)
要約 Explainable AI for the Arts (XAIxArts … 続きを読む
MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding
要約 ラージ ビジョン ランゲージ モデル (LVLM) の出現により、マルチモ … 続きを読む