cs.MM」カテゴリーアーカイブ

Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage Approach

要約 Transformerのような強力なシーケンスモデルを用いても、長距離の音 … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage Approach はコメントを受け付けていません

IPA-CLIP: Integrating Phonetic Priors into Vision and Language Pretraining

要約 近年、大規模なVision and Language (V&L) … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | IPA-CLIP: Integrating Phonetic Priors into Vision and Language Pretraining はコメントを受け付けていません

Perfectly Secure Steganography Using Minimum Entropy Coupling

要約 ステガノグラフィーは、敵対する第三者が隠された意味に気づかないような方法で … 続きを読む

カテゴリー: cs.AI, cs.CR, cs.MM | Perfectly Secure Steganography Using Minimum Entropy Coupling はコメントを受け付けていません

Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage Approach

要約 Transformerのような強力なシーケンスモデルを用いても、長距離の音 … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage Approach はコメントを受け付けていません

Video Question Answering Using CLIP-Guided Visual-Text Attention

要約 Video Question Answering (VideoQA)では、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, I.2.10 | Video Question Answering Using CLIP-Guided Visual-Text Attention はコメントを受け付けていません

Neighborhood Contrastive Transformer for Change Captioning

要約 チェンジキャプションとは、類似した画像のペア間の意味的な変化を自然言語で記 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Neighborhood Contrastive Transformer for Change Captioning はコメントを受け付けていません

AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep Learning Assistant Video Editing

要約 短編映像の爆発的な普及は、人々の交流のあり方を大きく変え、日々の共有や最新 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | AutoMatch: A Large-scale Audio Beat Matching Benchmark for Boosting Deep Learning Assistant Video Editing はコメントを受け付けていません

Synthetic Misinformers: Generating and Combating Multimodal Misinformation

要約 ソーシャル メディアの拡大とマルチメディア コンテンツの普及に伴い、誤った … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | Synthetic Misinformers: Generating and Combating Multimodal Misinformation はコメントを受け付けていません

MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation

要約 Vision-and-Language Navigation (VLN) … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation はコメントを受け付けていません

Multimodal Analogical Reasoning over Knowledge Graphs

要約 類推は人間の認知の基本であり、さまざまな分野で重要な位置を占めています。 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Multimodal Analogical Reasoning over Knowledge Graphs はコメントを受け付けていません