「cs.MM」カテゴリーアーカイブ

Generative Steganographic Flow

投稿日: 2023年5月11日作成者: jarxiv

要約タイトル：Generative Steganographic Flow（生 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

投稿日: 2023年5月10日作成者: jarxiv

要約タイトル: AlignSTS: クロスモーダルアライメントによる音声から歌 … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models

投稿日: 2023年5月9日作成者: jarxiv

要約タイトル「画像からテキストのプロンプトへ：凍結された大規模言語モデルによ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

IIITD-20K: Dense captioning for Text-Image ReID

投稿日: 2023年5月9日作成者: jarxiv

要約【タイトル】IIITD-20K：Text-Image ReIDのDense … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

A vector quantized masked autoencoder for audiovisual speech emotion recognition

投稿日: 2023年5月8日作成者: jarxiv

要約タイトル：音声視覚的話し言葉の感情認識のためのベクトル量子化マスクされたオ … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning

投稿日: 2023年5月8日作成者: jarxiv

要約タイトル: 音声ビジュアルスピーチ表現学習のための多様なダイナミカル変分自 … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked Emotions, Cross-Cultural Humour, and Personalisation

投稿日: 2023年5月8日作成者: jarxiv

要約【タイトル】 MuSe 2023マルチモーダル感情分析チャレンジ：模倣され … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM | コメントを受け付けていません

Generative Steganography Diffusion

投稿日: 2023年5月8日作成者: jarxiv

要約タイトル: 生成型ステガノグラフィ拡散要約: 本論文では、秘密のデータを … 続きを読む →

カテゴリー: cs.AI, cs.MM | コメントを受け付けていません

LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial Expression Recognition

投稿日: 2023年5月8日作成者: jarxiv

要約タイトル: ダイナミックな表情認識に対するローカルグローバル空間的・時間的 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Egocentric Audio-Visual Noise Suppression

投稿日: 2023年5月4日作成者: jarxiv

要約【タイトル】エゴセントリックなオーディオ・ビジュアルノイズサプレッション … 続きを読む →

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Generative Steganographic Flow

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models

IIITD-20K: Dense captioning for Text-Image ReID

A vector quantized masked autoencoder for audiovisual speech emotion recognition

A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning

The MuSe 2023 Multimodal Sentiment Analysis Challenge: Mimicked Emotions, Cross-Cultural Humour, and Personalisation

Generative Steganography Diffusion

LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial Expression Recognition

Egocentric Audio-Visual Noise Suppression

最近の投稿

最近のコメント

アーカイブ

カテゴリー