「cs.MM」カテゴリーアーカイブ

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

投稿日: 2025年5月22日作成者: jarxiv

要約視聴覚学習の最近の進歩により、モダリティ全体の学習表現における有望な結果が … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

投稿日: 2025年5月22日作成者: jarxiv

要約視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識（AVS … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization

投稿日: 2025年5月19日作成者: jarxiv

要約犬の樹皮を聞いて、駐車した車を見るためだけに音に向かって曲がると想像してく … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Face Consistency Benchmark for GenAI Video

投稿日: 2025年5月19日作成者: jarxiv

要約人工知能によって駆動されるビデオ生成は、動的で現実的なコンテンツの作成を可 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Machine Learning-Based Prediction of Quality Shifts on Video Streaming Over 5G

投稿日: 2025年5月15日作成者: jarxiv

要約 Quality of Experience（QOE）は、YouTubeのよ … 続きを読む →

カテゴリー: cs.LG, cs.MM | コメントを受け付けていません

Detecting Multimedia Generated by Large AI Models: A Survey

投稿日: 2025年5月15日作成者: jarxiv

要約大規模なAIモデル（LAIMS）、特に拡散モデルと大規模な言語モデルの急速 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.MM | コメントを受け付けていません

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

投稿日: 2025年5月15日作成者: jarxiv

要約 GPT-4O-Audioなどのエンドツーエンドの音声対話モデルは、最近、音 … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality Assessment

投稿日: 2025年5月15日作成者: jarxiv

要約メッシュ品質評価（MQA）モデルは、さまざまなアプリケーションでのメッシュ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

FMNV: A Dataset of Media-Published News Videos for Fake News Detection

投稿日: 2025年5月14日作成者: jarxiv

要約ニュースメディア、特にビデオベースのプラットフォームは、日常生活に深く埋め … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

投稿日: 2025年5月13日作成者: jarxiv

要約 DCASE 2025チャレンジのタスク5を紹介します。音響質問（AQA）ベ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization

Face Consistency Benchmark for GenAI Video

Machine Learning-Based Prediction of Quality Shifts on Video Streaming Over 5G

Detecting Multimedia Generated by Large AI Models: A Survey

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality Assessment

FMNV: A Dataset of Media-Published News Videos for Fake News Detection

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

最近の投稿

最近のコメント

アーカイブ

カテゴリー