cs.MM」カテゴリーアーカイブ

Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas

要約 トレーラーを作成するには、長いビデオから短い魅力的な瞬間を慎重に選択してつ … 続きを読む

カテゴリー: cs.CV, cs.MM | Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas はコメントを受け付けていません

Cross-Modal Coordination Across a Diverse Set of Input Modalities

要約 クロスモーダル検索は、別のクエリを使用して特定のモダリティのサンプルを取得 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Cross-Modal Coordination Across a Diverse Set of Input Modalities はコメントを受け付けていません

Synchformer: Efficient Synchronization from Sparse Cues

要約 私たちの目的は、同期キューがまばらな可能性がある YouTube などの「 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Synchformer: Efficient Synchronization from Sparse Cues はコメントを受け付けていません

Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning

要約 近年、Web ビデオの爆発的な増加により、ビデオのフィルタリング、推奨、検 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning はコメントを受け付けていません

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning

要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning はコメントを受け付けていません

CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning

要約 マルチモーダル大規模言語モデル (MLLM) は目覚ましい進歩を遂げ、強力 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM | CMMU: A Benchmark for Chinese Multi-modal Multi-type Question Understanding and Reasoning はコメントを受け付けていません

MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction

要約 音声感情認識 (SER) における一般的なアプローチには、音声情報とテキス … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | MF-AED-AEC: Speech Emotion Recognition by Leveraging Multimodal Fusion, ASR Error Detection, and ASR Error Correction はコメントを受け付けていません

Modularized Zero-shot VQA with Pre-trained Models

要約 大規模な事前トレーニング済みモデル (PTM) は、優れたゼロショット機能 … 続きを読む

カテゴリー: cs.CV, cs.MM | Modularized Zero-shot VQA with Pre-trained Models はコメントを受け付けていません

M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images

要約 空間トランスクリプトミクス (ST) の進歩により、組織病理学画像に基づい … 続きを読む

カテゴリー: cs.CV, cs.MM | M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images はコメントを受け付けていません

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

要約 マルチモーダル情報検索 (MMIR) は急速に進化している分野であり、高度 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.IR, cs.MM | SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval はコメントを受け付けていません