「cs.MM」カテゴリーアーカイブ

TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks

投稿日: 2025年4月30日作成者: jarxiv

要約 AI生成された合成メディアは、実際のシナリオでますます使用されており、多く … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Advance Fake Video Detection via Vision Transformers

投稿日: 2025年4月30日作成者: jarxiv

要約 AIベースのマルチメディア生成における最近の進歩により、超現実的な画像とビ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective

投稿日: 2025年4月30日作成者: jarxiv

要約 Multi-Modal Entity Alignment（MMEA）は、重 … 続きを読む →

カテゴリー: cs.CL, cs.IR, cs.MM | コメントを受け付けていません

Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective

投稿日: 2025年4月29日作成者: jarxiv

要約 Multi-Modal Entity Alignment（MMEA）は、重 … 続きを読む →

カテゴリー: cs.CL, cs.IR, cs.MM | コメントを受け付けていません

Kimi-Audio Technical Report

投稿日: 2025年4月28日作成者: jarxiv

要約オーディオの理解、生成、会話に優れたオープンソースオーディオファンデーショ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator

投稿日: 2025年4月28日作成者: jarxiv

要約最近の視聴覚生成モデルは、オーディオから画像を生成する際に大きな進歩を遂げ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

投稿日: 2025年4月25日作成者: jarxiv

要約マルチモーダル言語分析は、複数のモダリティを活用して、人間の会話の発話の根 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM | コメントを受け付けていません

M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction

投稿日: 2025年4月25日作成者: jarxiv

要約相互補強効果（MRE）は、情報抽出とモデルの解釈可能性の交差点の新興サブフ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task

投稿日: 2025年4月25日作成者: jarxiv

要約知識ベースのビジョン質問応答（KB-VQA）は、視覚的およびテキストの入力 … 続きを読む →

カテゴリー: cs.CV, cs.IR, cs.MM | コメントを受け付けていません

FMNV: A Dataset of Media-Published News Videos for Fake News Detection

投稿日: 2025年4月25日作成者: jarxiv

要約ニュースメディア、特にビデオベースのプラットフォームは、日常生活に深く組み … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

TrueFake: A Real World Case Dataset of Last Generation Fake Images also Shared on Social Networks

Advance Fake Video Detection via Vision Transformers

Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective

Mitigating Modality Bias in Multi-modal Entity Alignment from a Causal Perspective

Kimi-Audio Technical Report

Seeing Soundscapes: Audio-Visual Generation and Separation from Soundscapes Using Audio-Visual Separator

Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

M-MRE: Extending the Mutual Reinforcement Effect to Multimodal Information Extraction

A Comprehensive Survey of Knowledge-Based Vision Question Answering Systems: The Lifecycle of Knowledge in Visual Reasoning Task

FMNV: A Dataset of Media-Published News Videos for Fake News Detection

最近の投稿

最近のコメント

アーカイブ

カテゴリー