cs.MM」カテゴリーアーカイブ

LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression

要約 有効受容野 (ERF) は、変換コーディングにおいて重要な役割を果たします … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression はコメントを受け付けていません

Image Conductor: Precision Control for Interactive Video Synthesis

要約 映画制作やアニメーション制作では、多くの場合、カメラのトランジションやオブ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Image Conductor: Precision Control for Interactive Video Synthesis はコメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

要約 Explainable AI for the Arts (XAIxArts … 続きを読む

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts) はコメントを受け付けていません

MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

要約 ラージ ビジョン ランゲージ モデル (LVLM) の出現により、マルチモ … 続きを読む

カテゴリー: cs.CV, cs.MM | MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding はコメントを受け付けていません

VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing

要約 ビデオ編集は、エンターテインメントや教育からプロフェッショナルなコミュニケ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | VIA: A Spatiotemporal Video Adaptation Framework for Global and Local Video Editing はコメントを受け付けていません

Unveiling Encoder-Free Vision-Language Models

要約 既存のビジョン言語モデル (VLM) は、主にビジョン エンコーダに依存し … 続きを読む

カテゴリー: cs.CV, cs.MM | Unveiling Encoder-Free Vision-Language Models はコメントを受け付けていません

SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation

要約 ポリープは早期がんの指標であるため、ポリープの発生とその切除を評価すること … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | SSTFB: Leveraging self-supervised pretext learning and temporal self-attention with feature branching for real-time video polyp segmentation はコメントを受け付けていません

CinePile: A Long Video Question Answering Dataset and Benchmark

要約 長い形式のビデオを理解するための現在のデータセットは、ビデオから 1 つま … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | CinePile: A Long Video Question Answering Dataset and Benchmark はコメントを受け付けていません

PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance

要約 近年、教育における人工知能技術への注目が高まっていますが、効果的な楽器指導 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | PianoMotion10M: Dataset and Benchmark for Hand Motion Generation in Piano Performance はコメントを受け付けていません

Explore the Limits of Omni-modal Pretraining at Scale

要約 私たちは、あらゆるモダリティを理解し、普遍的な表現を学習できるオムニモーダ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Explore the Limits of Omni-modal Pretraining at Scale はコメントを受け付けていません