cs.MM」カテゴリーアーカイブ

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Inspire creativity with ORIBA: Transform Artists’ Original Characters into Chatbots through Large Language Model

要約 この研究は、イラストレーターがオリジナルのキャラクター (OC) を体現す … 続きを読む

カテゴリー: 14J26 (Secondary), 14J60 (Primary) 14F05, cs.AI, cs.HC, cs.MM, F.2.2 | Inspire creativity with ORIBA: Transform Artists’ Original Characters into Chatbots through Large Language Model はコメントを受け付けていません

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

要約 ビデオテキストトレーニングコーパスの規模と品質が限られているため、ほとんど … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | COSA: Concatenated Sample Pretrained Vision-Language Foundation Model はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 Contrastive Language-Audio Pretrainin … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Enhanced Multimodal Representation Learning with Cross-modal KD

要約 この論文では、クロスモーダル知識蒸留 (KD) を通じてマルチモーダル表現 … 続きを読む

カテゴリー: cs.CV, cs.MM | Enhanced Multimodal Representation Learning with Cross-modal KD はコメントを受け付けていません

Localization of Just Noticeable Difference for Image Compression

要約 可感差異 (JND) は、人が検出できる刺激間の最小差異です。 特定の参照 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Localization of Just Noticeable Difference for Image Compression はコメントを受け付けていません

GeneCIS: A Benchmark for General Conditional Image Similarity

要約 私たちは、「類似性」には多くの概念があり、人間と同様にモデルもこれらの概念 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | GeneCIS: A Benchmark for General Conditional Image Similarity はコメントを受け付けていません

Video-to-Music Recommendation using Temporal Alignment of Segments

要約 私たちは、ビデオのサウンドトラックとして使用される音楽トラックのクロスモー … 続きを読む

カテゴリー: cs.IR, cs.LG, cs.MM, cs.SD, eess.AS | Video-to-Music Recommendation using Temporal Alignment of Segments はコメントを受け付けていません

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

要約 電子商取引とメタバースの急速に進化する分野では、消費者エクスペリエンスを向 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On はコメントを受け付けていません

Factorized Contrastive Learning: Going Beyond Multi-view Redundancy

要約 幅広いマルチモーダルタスクにおいて、対比学習は、ペア情報(画像とキャプショ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Factorized Contrastive Learning: Going Beyond Multi-view Redundancy はコメントを受け付けていません