cs.MM」カテゴリーアーカイブ

Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation

要約 この論文では、第 6 回野生感情行動分析 (ABAW) コンペティションの … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Efficient Feature Extraction and Late Fusion Strategy for Audiovisual Emotional Mimicry Intensity Estimation はコメントを受け付けていません

Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding

要約 単なる表面的なコンテンツ関係マイニングを超えた、マルチモーダルな意味論的な … 続きを読む

カテゴリー: cs.CL, cs.MM | Mixture-of-Prompt-Experts for Multi-modal Semantic Understanding はコメントを受け付けていません

QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation

要約 音楽生成ダンスの研究は、斬新かつ挑戦的なイメージ生成タスクです。 音楽とシ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM, cs.SD, eess.AS | QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation はコメントを受け付けていません

K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling

要約 歌詞の翻訳は、1 世紀以上にわたって研究されてきた分野であり、現在、計算言 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM | K-pop Lyric Translation: Dataset, Analysis, and Neural-Modelling はコメントを受け付けていません

M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment

要約 この論文では、認知負荷評価 (CLA) 用の AVCAffe データセット … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | M&M: Multimodal-Multitask Model Integrating Audiovisual Cues in Cognitive Load Assessment はコメントを受け付けていません

GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting

要約 暗黙的ニューラル表現 (INR) は最近、画像表現と圧縮において大きな成功 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV | GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting はコメントを受け付けていません

Content-aware Masked Image Modeling Transformer for Stereo Image Compression

要約 既存の学習ベースのステレオ画像コーデックは、単一画像コーデックから派生した … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV | Content-aware Masked Image Modeling Transformer for Stereo Image Compression はコメントを受け付けていません

GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting

要約 暗黙的ニューラル表現 (INR) は最近、画像表現と圧縮において大きな成功 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV | GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Splatting はコメントを受け付けていません

Leveraging Compressed Frame Sizes For Ultra-Fast Video Classification

要約 ビデオをスポーツ ビデオやミュージック ビデオなどの異なるカテゴリに分類す … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Leveraging Compressed Frame Sizes For Ultra-Fast Video Classification はコメントを受け付けていません

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric

要約 ビジョン言語の事前トレーニング済みモデルは、さまざまな下流タスクで優れたパ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric はコメントを受け付けていません