-
最近の投稿
- Topological mapping for traversability-aware long-range navigation in off-road terrain
- Equality Constrained Diffusion for Direct Trajectory Optimization
- Learning-Based Autonomous Navigation, Benchmark Environments and Simulation Framework for Endovascular Interventions
- Language Supervised Human Action Recognition with Salient Fusion: Construction Worker Action Recognition as a Use Case
- Bi-Level Motion Imitation for Humanoid Robots
-
最近のコメント
表示できるコメントはありません。 cs.AI (27641) cs.CL (20879) cs.CR (2167) cs.CV (34375) cs.LG (32373) cs.RO (15816) cs.SY (2460) eess.IV (4221) eess.SY (2454) stat.ML (4339)
「cs.MM」カテゴリーアーカイブ
HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning
要約 幻覚は大規模な言語モデルにとって大きな問題であり、視覚言語モデル (VLM … 続きを読む
Multimodal Misinformation Detection using Large Vision-Language Models
要約 誤った情報の蔓延とその憂慮すべき影響により、産業界と学界の両方が誤った情報 … 続きを読む
Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio
要約 音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネス モ … 続きを読む
Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment
要約 学習ベースの音源定位に関する最近の研究は、主に定位パフォーマンスの観点に焦 … 続きを読む
Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation
要約 この研究では、シーンのテキストをソース言語 (ヒンディー語など) からター … 続きを読む
Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation
要約 我々は、ビデオの異常検出のための非常に高速なフレームレベルのモデルを提案し … 続きを読む
MMSD-Net: Towards Multi-modal Stuttering Detection
要約 吃音は、音声生成の不規則な中断によって引き起こされる一般的な音声障害であり … 続きを読む
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation
要約 ビデオ内の動きは主に、カメラの動きによって引き起こされるカメラの動きと、オ … 続きを読む
When Synthetic Traces Hide Real Content: Analysis of Stable Diffusion Image Laundering
要約 近年、リアリティの高い合成画像を作成する方法が大幅に進歩し、目的のコンテン … 続きを読む
SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis
要約 歌声変換 (SVC) は、元の内容を維持したまま、特定の音楽作品内の歌手の … 続きを読む
カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7
SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis はコメントを受け付けていません