「cs.MM」カテゴリーアーカイブ

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

投稿日: 2023年5月26日作成者: jarxiv

要約最近、言語や音声などのマルチモーダル信号によって参照されるビデオオブジェ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

投稿日: 2023年5月25日作成者: jarxiv

要約 STS (Speech-to-Singing) 音声変換タスクは、音声録音 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

VIP5: Towards Multimodal Foundation Models for Recommendation

投稿日: 2023年5月24日作成者: jarxiv

要約コンピュータービジョン (CV)、自然言語処理 (NLP)、およびレコメ … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.IR, cs.LG, cs.MM | コメントを受け付けていません

Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers

投稿日: 2023年5月24日作成者: jarxiv

要約深度センサーの利用可能性が高まるにつれ、色情報と深度データを組み合わせるマ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

投稿日: 2023年5月23日作成者: jarxiv

要約リアルタイム認識、つまりストリーミング認識は自動運転の重要な側面ですが、既 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | コメントを受け付けていません

EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels

投稿日: 2023年5月23日作成者: jarxiv

要約テキスト読み上げ技術の採用の増加により、会話の文脈や感情的な調子に適応する … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM | コメントを受け付けていません

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech

投稿日: 2023年5月23日作成者: jarxiv

要約きれいな音声の欠如は、音声強調システムの開発にとって実際的な課題であり、ト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Building an Invisible Shield for Your Portrait against Deepfakes

投稿日: 2023年5月23日作成者: jarxiv

要約ディープフェイクの検出の問題は、虐待防止のための顔操作を特定するという目的 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment

投稿日: 2023年5月23日作成者: jarxiv

要約 Text-to-audio (TTA) 生成は、テキストの説明を基に一般的 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Sparsity and Coefficient Permutation Based Two-Domain AMP for Image Block Compressed Sensing

投稿日: 2023年5月23日作成者: jarxiv

要約学習されたノイズ除去ベースの近似メッセージパッシング (LDAMP) ア … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

VIP5: Towards Multimodal Foundation Models for Recommendation

Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative storytelling in games, television and graphic novels

A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech

Building an Invisible Shield for Your Portrait against Deepfakes

DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment

Sparsity and Coefficient Permutation Based Two-Domain AMP for Image Block Compressed Sensing

最近の投稿

最近のコメント

アーカイブ

カテゴリー