cs.MM」カテゴリーアーカイブ

KeyVideoLLM: Towards Large-scale Video Keyframe Selection

要約 最近、Web ビデオの台頭により、大規模なビデオ データセットの管理と理解 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | KeyVideoLLM: Towards Large-scale Video Keyframe Selection はコメントを受け付けていません

Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation

要約 言語に似た記号音楽は、個別の記号でエンコードできます。 最近の研究では、G … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Can LLMs ‘Reason’ in Music? An Evaluation of LLMs’ Capability of Music Understanding and Generation はコメントを受け付けていません

Open-Vocabulary Audio-Visual Semantic Segmentation

要約 オーディオビジュアル セマンティック セグメンテーション (AVSS) は … 続きを読む

カテゴリー: cs.AI, cs.MM | Open-Vocabulary Audio-Visual Semantic Segmentation はコメントを受け付けていません

Learning Video Context as Interleaved Multimodal Sequences

要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む

カテゴリー: cs.CV, cs.MM | Learning Video Context as Interleaved Multimodal Sequences はコメントを受け付けていません

Versatile audio-visual learning for emotion recognition

要約 現在のオーディオビジュアル感情認識モデルのほとんどは、実際のアプリケーショ … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Versatile audio-visual learning for emotion recognition はコメントを受け付けていません

Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation

要約 Radiology Report Generation (RRG) は、生 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Rethinking Radiology Report Generation via Causal Inspired Counterfactual Augmentation はコメントを受け付けていません

MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions はコメントを受け付けていません

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む

カテゴリー: cs.AI, cs.MM | AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics はコメントを受け付けていません

Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study

要約 ディープ ニューラル ネットワークは最近、サウンド生成において画期的な進歩 … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study はコメントを受け付けていません

AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics

要約 マルチメディアおよびコンピュータ ビジョン テクノロジの急速な進化には、多 … 続きを読む

カテゴリー: cs.AI, cs.MM | AxiomVision: Accuracy-Guaranteed Adaptive Visual Model Selection for Perspective-Aware Video Analytics はコメントを受け付けていません