「cs.MM」カテゴリーアーカイブ

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

投稿日: 2023年6月19日作成者: jarxiv

要約対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Inspire creativity with ORIBA: Transform Artists’ Original Characters into Chatbots through Large Language Model

投稿日: 2023年6月19日作成者: jarxiv

要約この研究は、イラストレーターがオリジナルのキャラクター (OC) を体現す … 続きを読む →

カテゴリー: 14J26 (Secondary), 14J60 (Primary) 14F05, cs.AI, cs.HC, cs.MM, F.2.2 | コメントを受け付けていません

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

投稿日: 2023年6月16日作成者: jarxiv

要約ビデオテキストトレーニングコーパスの規模と品質が限られているため、ほとんど … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

投稿日: 2023年6月14日作成者: jarxiv

要約 Contrastive Language-Audio Pretrainin … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Enhanced Multimodal Representation Learning with Cross-modal KD

投稿日: 2023年6月14日作成者: jarxiv

要約この論文では、クロスモーダル知識蒸留 (KD) を通じてマルチモーダル表現 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Localization of Just Noticeable Difference for Image Compression

投稿日: 2023年6月14日作成者: jarxiv

要約可感差異 (JND) は、人が検出できる刺激間の最小差異です。特定の参照 … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

GeneCIS: A Benchmark for General Conditional Image Similarity

投稿日: 2023年6月14日作成者: jarxiv

要約私たちは、「類似性」には多くの概念があり、人間と同様にモデルもこれらの概念 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Video-to-Music Recommendation using Temporal Alignment of Segments

投稿日: 2023年6月13日作成者: jarxiv

要約私たちは、ビデオのサウンドトラックとして使用される音楽トラックのクロスモー … 続きを読む →

カテゴリー: cs.IR, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

投稿日: 2023年6月12日作成者: jarxiv

要約電子商取引とメタバースの急速に進化する分野では、消費者エクスペリエンスを向 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Factorized Contrastive Learning: Going Beyond Multi-view Redundancy

投稿日: 2023年6月9日作成者: jarxiv

要約幅広いマルチモーダルタスクにおいて、対比学習は、ペア情報（画像とキャプショ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

Inspire creativity with ORIBA: Transform Artists’ Original Characters into Chatbots through Large Language Model

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

Enhanced Multimodal Representation Learning with Cross-modal KD

Localization of Just Noticeable Difference for Image Compression

GeneCIS: A Benchmark for General Conditional Image Similarity

Video-to-Music Recommendation using Temporal Alignment of Segments

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

Factorized Contrastive Learning: Going Beyond Multi-view Redundancy

最近の投稿

最近のコメント

アーカイブ

カテゴリー