「cs.MM」カテゴリーアーカイブ

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

投稿日: 2024年3月4日作成者: jarxiv

要約ビデオと言語の理解は、ビデオ質問応答、テキスト-ビデオ検索、マルチラベル分 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

投稿日: 2024年3月4日作成者: jarxiv

要約多様なマルチモーダルデータから学習するスケーラブルな視覚言語モデルの構築は … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

投稿日: 2024年3月4日作成者: jarxiv

要約最近の研究により、音声駆動型話し顔生成は大きく進歩したが、生成された映像の … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation

投稿日: 2024年3月1日作成者: jarxiv

要約産業用異常検出 (AD) の課題に効果的に対処するには、欠陥のあるサンプル … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions

投稿日: 2024年2月27日作成者: jarxiv

要約自然言語でルートを伝達する場合、{\em 獲得された空間知識} の概念 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM | コメントを受け付けていません

Gradient-Guided Modality Decoupling for Missing-Modality Robustness

投稿日: 2024年2月27日作成者: jarxiv

要約不完全な入力データ (モダリティの欠落) を使用したマルチモーダル学習は実 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

SPC-NeRF: Spatial Predictive Compression for Voxel Based Radiance Field

投稿日: 2024年2月27日作成者: jarxiv

要約 Neural Radiance Field (NeRF) を明示的なボクセ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

投稿日: 2024年2月26日作成者: jarxiv

要約 Large Vision-Language Model (LVLM) は物 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

A multimodal dynamical variational autoencoder for audiovisual speech representation learning

投稿日: 2024年2月21日作成者: jarxiv

要約この論文では、教師なし視聴覚音声表現学習に適用されるマルチモーダルで動的 … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Unified Hallucination Detection for Multimodal Large Language Models

投稿日: 2024年2月21日作成者: jarxiv

要約マルチモーダルタスクの大幅な進歩にも関わらず、マルチモーダル大規模言語モ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling

EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation

Where Do We Go from Here? Multi-scale Allocentric Relational Inference from Natural Spatial Descriptions

Gradient-Guided Modality Decoupling for Missing-Modality Robustness

SPC-NeRF: Spatial Predictive Compression for Voxel Based Radiance Field

Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding

A multimodal dynamical variational autoencoder for audiovisual speech representation learning

Unified Hallucination Detection for Multimodal Large Language Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー