cs.MM」カテゴリーアーカイブ

Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features

要約 人間の視覚神経表現を解読することは、視覚処理メカニズムを明らかにし、脳のよ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.NE | Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features はコメントを受け付けていません

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

要約 オーディオは私たちの周りの世界をどのように説明しますか? 本論文では,音か … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment はコメントを受け付けていません

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

要約 最近の研究では、発話による会話の顔の生成が大幅に進歩しましたが、生成された … 続きを読む

カテゴリー: cs.CV, cs.MM | DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder はコメントを受け付けていません

STEFANN: Scene Text Editor using Font Adaptive Neural Network

要約 キャプチャされたシーンのテキスト情報は、シーンの解釈と意思決定において重要 … 続きを読む

カテゴリー: cs.CV, cs.MM | STEFANN: Scene Text Editor using Font Adaptive Neural Network はコメントを受け付けていません

Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization

要約 時間アクション ローカリゼーション (TAL) では、さまざまな期間と複雑 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization はコメントを受け付けていません

From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore

要約 シンガポールは、国民への医療サービスの提供を改善するために努力してきました … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.DB, cs.LG, cs.MM | From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore はコメントを受け付けていません

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

要約 LLaMA-Adapter は、LLaMA を命令に従うモデルに効率的に微 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention はコメントを受け付けていません

Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning

要約 視覚言語事前トレーニング (VLP) モデルがさまざまなモダリティ間で対応 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning はコメントを受け付けていません

Multi-Modal Few-Shot Temporal Action Detection

要約 少数ショット (FS) とゼロ ショット (ZS) 学習は、時間アクション … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Multi-Modal Few-Shot Temporal Action Detection はコメントを受け付けていません

Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification

要約 ソーシャル メディアは、画像とテキストを組み合わせた大規模なマルチメディア … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM | Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification はコメントを受け付けていません