cs.MM」カテゴリーアーカイブ

Image Captioners Sometimes Tell More Than Images They See

要約 タイトル:画像説明の正確さは時に、画像そのものよりも高くなる 要約: &# … 続きを読む

カテゴリー: cs.CV, cs.MM | Image Captioners Sometimes Tell More Than Images They See はコメントを受け付けていません

V2Meow: Meowing to the Visual Beat via Music Generation

要約 タイトル:V2Meow:音楽生成によるビジュアルビートのミウシカ 要約: … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | V2Meow: Meowing to the Visual Beat via Music Generation はコメントを受け付けていません

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval

要約 【タイトル】C2KD: クロスリンガルクロスモーダル知識蒸留法による多言語 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval はコメントを受け付けていません

Interpretable Multimodal Misinformation Detection with Logic Reasoning

要約 タイトル:論理推論による解釈可能なマルチモーダル偽情報検出 要約: &#8 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | Interpretable Multimodal Misinformation Detection with Logic Reasoning はコメントを受け付けていません

Generative Steganographic Flow

要約 タイトル:Generative Steganographic Flow(生 … 続きを読む

カテゴリー: cs.CV, cs.MM | Generative Steganographic Flow はコメントを受け付けていません

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment

要約 タイトル: AlignSTS: クロスモーダルアライメントによる音声から歌 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment はコメントを受け付けていません

From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models

要約 タイトル 「画像からテキストのプロンプトへ:凍結された大規模言語モデルによ … 続きを読む

カテゴリー: cs.CV, cs.MM | From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models はコメントを受け付けていません

IIITD-20K: Dense captioning for Text-Image ReID

要約 【タイトル】IIITD-20K:Text-Image ReIDのDense … 続きを読む

カテゴリー: cs.CV, cs.MM | IIITD-20K: Dense captioning for Text-Image ReID はコメントを受け付けていません

A vector quantized masked autoencoder for audiovisual speech emotion recognition

要約 タイトル:音声視覚的話し言葉の感情認識のためのベクトル量子化マスクされたオ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | A vector quantized masked autoencoder for audiovisual speech emotion recognition はコメントを受け付けていません

A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning

要約 タイトル: 音声ビジュアルスピーチ表現学習のための多様なダイナミカル変分自 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | A Multimodal Dynamical Variational Autoencoder for Audiovisual Speech Representation Learning はコメントを受け付けていません