cs.MM」カテゴリーアーカイブ

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

要約 ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling はコメントを受け付けていません

HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection

要約 オープン語彙オブジェクト検出 (OVD) モデルは、その広範なトレーニング … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection はコメントを受け付けていません

MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion

要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む

カテゴリー: cs.CV, cs.MM | MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion はコメントを受け付けていません

Vista3D: Unravel the 3D Darkside of a Single Image

要約 私たちは、目に見える部分を垣間見るだけで、オブジェクトの隠された次元を明ら … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GT, cs.MM | Vista3D: Unravel the 3D Darkside of a Single Image はコメントを受け付けていません

NVLM: Open Frontier-Class Multimodal LLMs

要約 NVLM 1.0 は、視覚言語タスクで最先端の結果を達成するフロンティアク … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | NVLM: Open Frontier-Class Multimodal LLMs はコメントを受け付けていません

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩では、MLLM … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models はコメントを受け付けていません

DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis

要約 オーディオ駆動トーキング ヘッド合成は、提供されたオーディオから本物のよう … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis はコメントを受け付けていません

On the Computation of BD-Rate over a Set of Videos for Fair Assessment of Performance of Learned Video Codecs

要約 Bjntegaard デルタ (BD) 測定は、さまざまなコーデック間のレ … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | On the Computation of BD-Rate over a Set of Videos for Fair Assessment of Performance of Learned Video Codecs はコメントを受け付けていません

Learning Video Context as Interleaved Multimodal Sequences

要約 映画などのナラティブビデオは、その豊富なコンテキスト (キャラクター、会話 … 続きを読む

カテゴリー: cs.CV, cs.MM | Learning Video Context as Interleaved Multimodal Sequences はコメントを受け付けていません

ComAlign: Compositional Alignment in Vision-Language Models

要約 CLIP のようなビジョン言語モデル (VLM) は、下流のタスクに転送可 … 続きを読む

カテゴリー: cs.CV, cs.MM | ComAlign: Compositional Alignment in Vision-Language Models はコメントを受け付けていません