cs.MM」カテゴリーアーカイブ

Palantir: Towards Efficient Super Resolution for Ultra-high-definition Live Streaming

要約 超解像度ディープ ニューラル ネットワークによるニューラルの強化により、既 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.NI | Palantir: Towards Efficient Super Resolution for Ultra-high-definition Live Streaming はコメントを受け付けていません

Rethinking Video with a Universal Event-Based Representation

要約 従来、ビデオは一連の個別の画像フレームとして構造化されていました。 しかし … 続きを読む

カテゴリー: cs.CV, cs.MM | Rethinking Video with a Universal Event-Based Representation はコメントを受け付けていません

Benchmarking Conventional and Learned Video Codecs with a Low-Delay Configuration

要約 最近のビデオ圧縮の進歩により、新しい標準と学習ベースのビデオ コーデックの … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Benchmarking Conventional and Learned Video Codecs with a Low-Delay Configuration はコメントを受け付けていません

Loc4Plan: Locating Before Planning for Outdoor Vision and Language Navigation

要約 視覚と言語ナビゲーション (VLN) は、エージェントが指示を理解し、視覚 … 続きを読む

カテゴリー: cs.CV, cs.MM | Loc4Plan: Locating Before Planning for Outdoor Vision and Language Navigation はコメントを受け付けていません

Learning Domain-Invariant Features for Out-of-Context News Detection

要約 文脈を無視したニュースは、オンライン メディア プラットフォームでよく見ら … 続きを読む

カテゴリー: cs.CL, cs.MM | Learning Domain-Invariant Features for Out-of-Context News Detection はコメントを受け付けていません

MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models

要約 私たちは、大規模な言語モデルを使用したマルチモーダル時間イベント予測という … 続きを読む

カテゴリー: cs.AI, cs.IR, cs.MM, H.3.3 | MM-Forecast: A Multimodal Approach to Temporal Event Forecasting with Large Language Models はコメントを受け付けていません

Edit As You Wish: Video Caption Editing with Multi-grained User Control

要約 ユーザーのリクエストに応じて自然言語でビデオを自動的にナレーションすること … 続きを読む

カテゴリー: cs.CV, cs.MM | Edit As You Wish: Video Caption Editing with Multi-grained User Control はコメントを受け付けていません

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses

要約 ビデオ グラウンディングは、マルチモーダル コンテンツの理解における基本的 … 続きを読む

カテゴリー: cs.CV, cs.MM | SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses はコメントを受け付けていません

Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis

要約 テキストから画像へのモデルのカスタマイズは大幅に進歩しましたが、複数のパー … 続きを読む

カテゴリー: 68U10, cs.AI, cs.CV, cs.MM, I.4.9 | Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis はコメントを受け付けていません

HiQuE: Hierarchical Question Embedding Network for Multimodal Depression Detection

要約 自動うつ病検出を利用すると、うつ病を経験している人に対する早期介入が大幅に … 続きを読む

カテゴリー: cs.AI, cs.MM | HiQuE: Hierarchical Question Embedding Network for Multimodal Depression Detection はコメントを受け付けていません