cs.MM」カテゴリーアーカイブ

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

要約 ラージ ビジョン ランゲージ モデル (LVLM) の出現により、マルチモ … 続きを読む

カテゴリー: cs.CV, cs.MM | MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding はコメントを受け付けていません

VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

要約 ビデオ編集は、エンターテインメントや教育からプロフェッショナルなコミュニケ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing はコメントを受け付けていません

Unveiling Encoder-Free Vision-Language Models

要約 既存のビジョン言語モデル (VLM) は、主にビジョン エンコーダに依存し … 続きを読む

カテゴリー: cs.CV, cs.MM | Unveiling Encoder-Free Vision-Language Models はコメントを受け付けていません

SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation

要約 ポリープは早期がんの指標であるため、ポリープの発生とその切除を評価すること … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation はコメントを受け付けていません

CinePile: A Long Video Question Answering Dataset and Benchmark

要約 長い形式のビデオを理解するための現在のデータセットは、ビデオから 1 つま … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | CinePile: A Long Video Question Answering Dataset and Benchmark はコメントを受け付けていません

PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance

要約 近年、教育における人工知能技術への注目が高まっていますが、効果的な楽器指導 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance はコメントを受け付けていません

Explore the Limits of Omni-modal Pretraining at Scale

要約 私たちは、あらゆるモダリティを理解し、普遍的な表現を学習できるオムニモーダ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Explore the Limits of Omni-modal Pretraining at Scale はコメントを受け付けていません

Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques

要約 テキスト データは一般に、音声感情認識 (SER) のパフォーマンスと信頼 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques はコメントを受け付けていません

Learning Domain-Invariant Features for Out-of-Context News Detection

要約 文脈を無視したマルチモーダルなニュースは、オンライン メディア プラットフ … 続きを読む

カテゴリー: cs.CL, cs.MM | Learning Domain-Invariant Features for Out-of-Context News Detection はコメントを受け付けていません