「cs.MM」カテゴリーアーカイブ

Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features

投稿日: 2023年3月31日作成者: jarxiv

要約人間の視覚神経表現を解読することは、視覚処理メカニズムを明らかにし、脳のよ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.NE | コメントを受け付けていません

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

投稿日: 2023年3月31日作成者: jarxiv

要約オーディオは私たちの周りの世界をどのように説明しますか? 本論文では，音か … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントを受け付けていません

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

投稿日: 2023年3月31日作成者: jarxiv

要約最近の研究では、発話による会話の顔の生成が大幅に進歩しましたが、生成された … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

STEFANN: Scene Text Editor using Font Adaptive Neural Network

投稿日: 2023年3月30日作成者: jarxiv

要約キャプチャされたシーンのテキスト情報は、シーンの解釈と意思決定において重要 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization

投稿日: 2023年3月29日作成者: jarxiv

要約時間アクションローカリゼーション (TAL) では、さまざまな期間と複雑 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore

投稿日: 2023年3月29日作成者: jarxiv

要約シンガポールは、国民への医療サービスの提供を改善するために努力してきました … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.DB, cs.LG, cs.MM | コメントを受け付けていません

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

投稿日: 2023年3月29日作成者: jarxiv

要約 LLaMA-Adapter は、LLaMA を命令に従うモデルに効率的に微 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning

投稿日: 2023年3月28日作成者: jarxiv

要約視覚言語事前トレーニング (VLP) モデルがさまざまなモダリティ間で対応 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Multi-Modal Few-Shot Temporal Action Detection

投稿日: 2023年3月28日作成者: jarxiv

要約少数ショット (FS) とゼロショット (ZS) 学習は、時間アクション … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification

投稿日: 2023年3月28日作成者: jarxiv

要約ソーシャルメディアは、画像とテキストを組み合わせた大規模なマルチメディア … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features

Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

STEFANN: Scene Text Editor using Font Adaptive Neural Network

Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization

From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning

Multi-Modal Few-Shot Temporal Action Detection

Borrowing Human Senses: Comment-Aware Self-Training for Social Media Multimodal Classification

最近の投稿

最近のコメント

アーカイブ

カテゴリー