cs.MM」カテゴリーアーカイブ

Knowledge-based Multimodal Music Similarity

要約 音楽の類似性は、音楽検索、推奨システム、および音楽分析にとって重要な側面で … 続きを読む

カテゴリー: cs.AI, cs.IR, cs.LG, cs.MM, cs.SD, eess.AS | Knowledge-based Multimodal Music Similarity はコメントを受け付けていません

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

要約 広範な画像とテキストのペアデータを利用した事前トレーニング済みの視覚言語基 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model はコメントを受け付けていません

MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian

要約 ビデオおよびテキスト データのマルチモーダル学習は、テキストからビデオへの … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, eess.IV | MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian はコメントを受け付けていません

Low-complexity Multidimensional DCT Approximations

要約 この論文では、複雑さの低い多次元離散コサイン変換 (DCT) 近似を紹介し … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SY, eess.IV, eess.SY, stat.ME | Low-complexity Multidimensional DCT Approximations はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 対照学習ベースの事前トレーニング方法は、最近、さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Inspire creativity with ORIBA: Transform Artists’ Original Characters into Chatbots through Large Language Model

要約 この研究は、イラストレーターがオリジナルのキャラクター (OC) を体現す … 続きを読む

カテゴリー: 14J26 (Secondary), 14J60 (Primary) 14F05, cs.AI, cs.HC, cs.MM, F.2.2 | Inspire creativity with ORIBA: Transform Artists’ Original Characters into Chatbots through Large Language Model はコメントを受け付けていません

COSA: Concatenated Sample Pretrained Vision-Language Foundation Model

要約 ビデオテキストトレーニングコーパスの規模と品質が限られているため、ほとんど … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | COSA: Concatenated Sample Pretrained Vision-Language Foundation Model はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition

要約 Contrastive Language-Audio Pretrainin … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition はコメントを受け付けていません

Enhanced Multimodal Representation Learning with Cross-modal KD

要約 この論文では、クロスモーダル知識蒸留 (KD) を通じてマルチモーダル表現 … 続きを読む

カテゴリー: cs.CV, cs.MM | Enhanced Multimodal Representation Learning with Cross-modal KD はコメントを受け付けていません

Localization of Just Noticeable Difference for Image Compression

要約 可感差異 (JND) は、人が検出できる刺激間の最小差異です。 特定の参照 … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Localization of Just Noticeable Difference for Image Compression はコメントを受け付けていません