cs.MM」カテゴリーアーカイブ

Solving Copyright Infringement on Short Video Platforms: Novel Datasets and an Audio Restoration Deep Learning Pipeline

要約 YouTube ShortsやTiktokのような短いビデオプラットフォー … 続きを読む

カテゴリー: cs.AI, cs.MM | コメントする

AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation

要約 この論文では、複数の入力モダリティ(テキスト、ビデオ、および参照オーディオ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation はコメントを受け付けていません

TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks

要約 AI生成された合成メディアは、実際のシナリオでますます使用されており、多く … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks はコメントを受け付けていません

Advance Fake Video Detection via Vision Transformers

要約 AIベースのマルチメディア生成における最近の進歩により、超現実的な画像とビ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Advance Fake Video Detection via Vision Transformers はコメントを受け付けていません

Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective

要約 Multi-Modal Entity Alignment(MMEA)は、重 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.MM | Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective はコメントを受け付けていません

Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective

要約 Multi-Modal Entity Alignment(MMEA)は、重 … 続きを読む

カテゴリー: cs.CL, cs.IR, cs.MM | Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective はコメントを受け付けていません

Kimi-Audio Technical Report

要約 オーディオの理解、生成、会話に優れたオープンソースオーディオファンデーショ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | Kimi-Audio Technical Report はコメントを受け付けていません

Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator

要約 最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator はコメントを受け付けていません

Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

要約 マルチモーダル言語分析は、複数のモダリティを活用して、人間の会話の発話の根 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark はコメントを受け付けていません

M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction

要約 相互補強効果(MRE)は、情報抽出とモデルの解釈可能性の交差点の新興サブフ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction はコメントを受け付けていません