cs.MM」カテゴリーアーカイブ

Learning Video Context as Interleaved Multimodal Sequences

要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む

カテゴリー: cs.CV, cs.MM | Learning Video Context as Interleaved Multimodal Sequences はコメントを受け付けていません

Versatile audio-visual learning for emotion recognition

要約 現在のオーディオビジュアル感情認識モデルのほとんどは、実際のアプリケーショ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Versatile audio-visual learning for emotion recognition はコメントを受け付けていません

Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation

要約 Radiology Report Generation (RRG) は、生 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation はコメントを受け付けていません

MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions はコメントを受け付けていません

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む

カテゴリー: cs.AI, cs.MM | AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics はコメントを受け付けていません

Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study

要約 ディープ ニューラル ネットワークは最近、サウンド生成において画期的な進歩 … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study はコメントを受け付けていません

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む

カテゴリー: cs.AI, cs.MM | AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics はコメントを受け付けていません

Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention

要約 感情を理解することは、人間のコミュニケーションの基本的な側面です。 オーデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, cs.SD, eess.AS, F.2.2 | Multimodal Emotion Recognition using Audio-Video Transformer Fusion with Cross Attention はコメントを受け付けていません

LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification

要約 偽造画像の急増、特にディープフェイクコンテンツの津波の中で、偽造技術の継続 … 続きを読む

カテゴリー: cs.CV, cs.MM | LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification はコメントを受け付けていません

Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models

要約 この論文は、科学的数値の解釈における重要な問題、つまりテキストと図のきめ細 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.DL, cs.MM | Every Part Matters: Integrity Verification of Scientific Figures Based on Multimodal Large Language Models はコメントを受け付けていません