「cs.MM」カテゴリーアーカイブ

Multimodal Misinformation Detection using Large Vision-Language Models

投稿日: 2024年7月22日作成者: jarxiv

要約誤った情報の蔓延とその憂慮すべき影響により、産業界と学界の両方が誤った情報 … 続きを読む →

カテゴリー: cs.CL, cs.IR, cs.MM | コメントを受け付けていません

Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio

投稿日: 2024年7月22日作成者: jarxiv

要約音楽生成における最近の進歩により、創造的な音楽プロセス、現在のビジネスモ … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment

投稿日: 2024年7月19日作成者: jarxiv

要約学習ベースの音源定位に関する最近の研究は、主に定位パフォーマンスの観点に焦 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation

投稿日: 2024年7月18日作成者: jarxiv

要約この研究では、シーンのテキストをソース言語 (ヒンディー語など) からター … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation

投稿日: 2024年7月18日作成者: jarxiv

要約我々は、ビデオの異常検出のための非常に高速なフレームレベルのモデルを提案し … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, stat.ML | コメントを受け付けていません

MMSD-Net: Towards Multi-modal Stuttering Detection

投稿日: 2024年7月17日作成者: jarxiv

要約吃音は、音声生成の不規則な中断によって引き起こされる一般的な音声障害であり … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

投稿日: 2024年7月17日作成者: jarxiv

要約ビデオ内の動きは主に、カメラの動きによって引き起こされるカメラの動きと、オ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

When Synthetic Traces Hide Real Content: Analysis of Stable Diffusion Image Laundering

投稿日: 2024年7月16日作成者: jarxiv

要約近年、リアリティの高い合成画像を作成する方法が大幅に進歩し、目的のコンテン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

投稿日: 2024年7月12日作成者: jarxiv

要約歌声変換 (SVC) は、元の内容を維持したまま、特定の音楽作品内の歌手の … 続きを読む →

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

投稿日: 2024年7月11日作成者: jarxiv

要約歌声変換 (SVC) は、元の内容を維持したまま、特定の音楽作品内の歌手の … 続きを読む →

カテゴリー: 68Txx(Primary)14F05, 91Fxx(Secondary), cs.AI, cs.MM, cs.SD, eess.AS, I.2.7 | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Multimodal Misinformation Detection using Large Vision-Language Models

Towards Assessing Data Replication in Music Generation with Music Similarity Metrics on Raw Audio

Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment

Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation

Lightning Fast Video Anomaly Detection via Adversarial Knowledge Distillation

MMSD-Net: Towards Multi-modal Stuttering Detection

MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

When Synthetic Traces Hide Real Content: Analysis of Stable Diffusion Image Laundering

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

SaMoye: Zero-shot Singing Voice Conversion Based on Feature Disentanglement and Synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー