cs.MM」カテゴリーアーカイブ

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

要約 視聴覚学習の最近の進歩により、モダリティ全体の学習表現における有望な結果が … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment はコメントを受け付けていません

Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach

要約 視覚的なキューを統合することにより、騒々しい環境での視聴覚音声認識(AVS … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Scaling and Enhancing LLM-based AVSR: A Sparse Mixture of Projectors Approach はコメントを受け付けていません

Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization

要約 犬の樹皮を聞いて、駐車した車を見るためだけに音に向かって曲がると想像してく … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization はコメントを受け付けていません

Face Consistency Benchmark for GenAI Video

要約 人工知能によって駆動されるビデオ生成は、動的で現実的なコンテンツの作成を可 … 続きを読む

カテゴリー: cs.CV, cs.MM | Face Consistency Benchmark for GenAI Video はコメントを受け付けていません

Machine Learning-Based Prediction of Quality Shifts on Video Streaming Over 5G

要約 Quality of Experience(QOE)は、YouTubeのよ … 続きを読む

カテゴリー: cs.LG, cs.MM | Machine Learning-Based Prediction of Quality Shifts on Video Streaming Over 5G はコメントを受け付けていません

Detecting Multimedia Generated by Large AI Models: A Survey

要約 大規模なAIモデル(LAIMS)、特に拡散モデルと大規模な言語モデルの急速 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.MM | Detecting Multimedia Generated by Large AI Models: A Survey はコメントを受け付けていません

WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

要約 GPT-4O-Audioなどのエンドツーエンドの音声対話モデルは、最近、音 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | WavReward: Spoken Dialogue Models With Generalist Reward Evaluators はコメントを受け付けていません

HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality Assessment

要約 メッシュ品質評価(MQA)モデルは、さまざまなアプリケーションでのメッシュ … 続きを読む

カテゴリー: cs.CV, cs.MM | HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality Assessment はコメントを受け付けていません

FMNV: A Dataset of Media-Published News Videos for Fake News Detection

要約 ニュースメディア、特にビデオベースのプラットフォームは、日常生活に深く埋め … 続きを読む

カテゴリー: cs.CV, cs.MM | FMNV: A Dataset of Media-Published News Videos for Fake News Detection はコメントを受け付けていません

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

要約 DCASE 2025チャレンジのタスク5を紹介します。音響質問(AQA)ベ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge はコメントを受け付けていません