cs.MM」カテゴリーアーカイブ

SLIC: Large Receptive Field Learning with Self-Conditioned Adaptability for Learned Image Compression

要約 最近、トランスフォーマーは、圧縮などのビジョンタスクにおいて CNN の代 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | SLIC: Large Receptive Field Learning with Self-Conditioned Adaptability for Learned Image Compression はコメントを受け付けていません

Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation

要約 自然言語からターゲットドメインを深く理解することで、私たちは大きなドメイン … 続きを読む

カテゴリー: cs.CV, cs.MM, I.4 | Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation はコメントを受け付けていません

Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark

要約 この論文では、MALS と呼ばれる、テキストベースの人物検索のための大規模 … 続きを読む

カテゴリー: cs.CV, cs.MM | Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark はコメントを受け付けていません

Deep Learning for Diverse Data Types Steganalysis: A Review

要約 ステガノグラフィーとステガナリシスは、情報セキュリティ分野の 2 つの相互 … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.LG, cs.MM, cs.SD, eess.AS, eess.IV | Deep Learning for Diverse Data Types Steganalysis: A Review はコメントを受け付けていません

Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark

要約 この論文では、MALS と呼ばれる、テキストベースの人物検索のための大規模 … 続きを読む

カテゴリー: cs.CV, cs.MM | Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark はコメントを受け付けていません

Versatile Face Animator: Driving Arbitrary 3D Facial Avatar in RGBD Space

要約 リアルな 3D フェイシャル アニメーションの作成は、映画制作やゲーム業界 … 続きを読む

カテゴリー: cs.CV, cs.MM, I.3.7 | Versatile Face Animator: Driving Arbitrary 3D Facial Avatar in RGBD Space はコメントを受け付けていません

AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining

要約 オーディオ生成には、音声、音楽、効果音など、さまざまなタイプのオーディオに … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS, eess.SP | AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining はコメントを受け付けていません

Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization

要約 自己教師による音源定位は、通常、モダリティの不一致によって困難になります。 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Induction Network: Audio-Visual Modality Gap-Bridging for Self-Supervised Sound Source Localization はコメントを受け付けていません

Separate Anything You Describe

要約 Language-Queryed Audio Source Separat … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Separate Anything You Describe はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習ベースのクロスモダリティ事前トレーニング アプローチは、最近、さま … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません