-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.MM」カテゴリーアーカイブ
Images that Sound: Composing Images and Sounds on a Single Canvas
要約 スペクトログラムは、私たちの視覚世界にある画像とは大きく異なるサウンドの … 続きを読む
Picking watermarks from noise (PWFN): an improved robust watermarking model against intensive distortions
要約 電子透かしは、人間の目には検出できない方法で画像を変更することで秘密情報を … 続きを読む
Distilling Implicit Multimodal Knowledge into LLMs for Zero-Resource Dialogue Generation
要約 マルチモーダルな知識を大規模言語モデル (LLM) に統合することは、対話 … 続きを読む
MMFusion: Multi-modality Diffusion Model for Lymph Node Metastasis Diagnosis in Esophageal Cancer
要約 食道がんは、世界中で最も一般的ながんの種類の 1 つであり、がん関連死亡率 … 続きを読む
A vector quantized masked autoencoder for audiovisual speech emotion recognition
要約 ラベル付きデータの利用可能性が限られていることが、視聴覚音声感情認識 (S … 続きを読む
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models
要約 テキストから音楽への生成モデルの最近の進歩により、音楽の創造性に新たな道が … 続きを読む
Scalable Image Coding for Humans and Machines Using Feature Fusion Network
要約 画像認識モデルが普及するにつれて、機械と人間のためのスケーラブルなコーディ … 続きを読む
Dance Any Beat: Blending Beats with Visuals in Dance Video Generation
要約 音楽からダンスを生成するというタスクは重要ですが、主に関節シーケンスを生成 … 続きを読む
MVBIND: Self-Supervised Music Recommendation For Videos Via Embedding Space Binding
要約 近年、通常、ビジュアルとオーディオの両方のモダリティを含むショートビデオが … 続きを読む