cs.MM」カテゴリーアーカイブ

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models はコメントを受け付けていません

Improving Visual Object Tracking through Visual Prompting

要約 一般的な視覚オブジェクトの追跡には、ターゲットを周囲の気を散らすものから区 … 続きを読む

カテゴリー: 68, cs.AI, cs.CV, cs.MM, eess.IV, I.2 | Improving Visual Object Tracking through Visual Prompting はコメントを受け付けていません

A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios

要約 ほとんどのレコメンダー システムは協調フィルタリング (CF) を採用し、 … 続きを読む

カテゴリー: cs.AI, cs.IR, cs.LG, cs.MM | A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios はコメントを受け付けていません

Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations

要約 音声と音楽からの感情認識には、音響的な重複があるため類似点があり、これらの … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations はコメントを受け付けていません

Exploring Event-based Human Pose Estimation with 3D Event Representations

要約 人間の姿勢推定は、コンピューター ビジョンにおける基本的かつ魅力的なタスク … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Exploring Event-based Human Pose Estimation with 3D Event Representations はコメントを受け付けていません

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

要約 ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling はコメントを受け付けていません

HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection

要約 オープン語彙オブジェクト検出 (OVD) モデルは、その広範なトレーニング … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection はコメントを受け付けていません

MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion

要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む

カテゴリー: cs.CV, cs.MM | MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion はコメントを受け付けていません

Vista3D: Unravel the 3D Darkside of a Single Image

要約 私たちは、目に見える部分を垣間見るだけで、オブジェクトの隠された次元を明ら … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GT, cs.MM | Vista3D: Unravel the 3D Darkside of a Single Image はコメントを受け付けていません

NVLM: Open Frontier-Class Multimodal LLMs

要約 NVLM 1.0 は、視覚言語タスクで最先端の結果を達成するフロンティアク … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | NVLM: Open Frontier-Class Multimodal LLMs はコメントを受け付けていません