cs.MM」カテゴリーアーカイブ

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

要約 最近、言語や音声などのマルチモーダル信号によって参照されるビデオ オブジェ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation はコメントを受け付けていません

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

要約 STS (Speech-to-Singing) 音声変換タスクは、音声録音 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment はコメントを受け付けていません

VIP5: Towards Multimodal Foundation Models for Recommendation

要約 コンピューター ビジョン (CV)、自然言語処理 (NLP)、およびレコメ … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.IR, cs.LG, cs.MM | VIP5: Towards Multimodal Foundation Models for Recommendation はコメントを受け付けていません

Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers

要約 深度センサーの利用可能性が高まるにつれ、色情報と深度データを組み合わせるマ … 続きを読む

カテゴリー: cs.CV, cs.MM | Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers はコメントを受け付けていません

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

要約 リアルタイム認識、つまりストリーミング認識は自動運転の重要な側面ですが、既 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving はコメントを受け付けていません

EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels

要約 テキスト読み上げ技術の採用の増加により、会話の文脈や感情的な調子に適応する … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels はコメントを受け付けていません

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech

要約 きれいな音声の欠如は、音声強調システムの開発にとって実際的な課題であり、ト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech はコメントを受け付けていません

Building an Invisible Shield for Your Portrait against Deepfakes

要約 ディープフェイクの検出の問題は、虐待防止のための顔操作を特定するという目的 … 続きを読む

カテゴリー: cs.CV, cs.MM | Building an Invisible Shield for Your Portrait against Deepfakes はコメントを受け付けていません

DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment

要約 Text-to-audio (TTA) 生成は、テキストの説明を基に一般的 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment はコメントを受け付けていません

Sparsity and Coefficient Permutation Based Two-Domain AMP for Image Block Compressed Sensing

要約 学習されたノイズ除去ベースの近似メッセージ パッシング (LDAMP) ア … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Sparsity and Coefficient Permutation Based Two-Domain AMP for Image Block Compressed Sensing はコメントを受け付けていません