「cs.MM」カテゴリーアーカイブ

A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios

投稿日: 2024年9月27日作成者: jarxiv

要約ほとんどのレコメンダーシステムは協調フィルタリング (CF) を採用し、 … 続きを読む →

カテゴリー: cs.AI, cs.IR, cs.LG, cs.MM | コメントを受け付けていません

Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations

投稿日: 2024年9月27日作成者: jarxiv

要約音声と音楽からの感情認識には、音響的な重複があるため類似点があり、これらの … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Exploring Event-based Human Pose Estimation with 3D Event Representations

投稿日: 2024年9月27日作成者: jarxiv

要約人間の姿勢推定は、コンピュータービジョンにおける基本的かつ魅力的なタスク … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | コメントを受け付けていません

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

投稿日: 2024年9月26日作成者: jarxiv

要約ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection

投稿日: 2024年9月26日作成者: jarxiv

要約オープン語彙オブジェクト検出 (OVD) モデルは、その広範なトレーニング … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion

投稿日: 2024年9月19日作成者: jarxiv

要約テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Vista3D: Unravel the 3D Darkside of a Single Image

投稿日: 2024年9月19日作成者: jarxiv

要約私たちは、目に見える部分を垣間見るだけで、オブジェクトの隠された次元を明ら … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GT, cs.MM | コメントを受け付けていません

NVLM: Open Frontier-Class Multimodal LLMs

投稿日: 2024年9月18日作成者: jarxiv

要約 NVLM 1.0 は、視覚言語タスクで最先端の結果を達成するフロンティアク … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

投稿日: 2024年9月17日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の最近の進歩では、MLLM … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis

投稿日: 2024年9月17日作成者: jarxiv

要約オーディオ駆動トーキングヘッド合成は、提供されたオーディオから本物のよう … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios

Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations

Exploring Event-based Human Pose Estimation with 3D Event Representations

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection

MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion

Vista3D: Unravel the 3D Darkside of a Single Image

NVLM: Open Frontier-Class Multimodal LLMs

Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

DreamHead: Learning Spatial-Temporal Correspondence via Hierarchical Diffusion for Audio-driven Talking Head Synthesis

最近の投稿

最近のコメント

アーカイブ

カテゴリー