cs.MM」カテゴリーアーカイブ

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

要約 ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling はコメントを受け付けていません

Rethinking Emotion Bias in Music via Frechet Audio Distance

要約 音楽の感情の主観的な性質により、特に単一のオーディオ エンコーダー、感情分 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Rethinking Emotion Bias in Music via Frechet Audio Distance はコメントを受け付けていません

Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models

要約 最近、単一の統合モデルを使用してさまざまなオーディオ タスクに同時に取り組 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models はコメントを受け付けていません

Improving Visual Object Tracking through Visual Prompting

要約 一般的な視覚オブジェクトの追跡には、ターゲットを周囲の気を散らすものから区 … 続きを読む

カテゴリー: 68, cs.AI, cs.CV, cs.MM, eess.IV, I.2 | Improving Visual Object Tracking through Visual Prompting はコメントを受け付けていません

A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios

要約 ほとんどのレコメンダー システムは協調フィルタリング (CF) を採用し、 … 続きを読む

カテゴリー: cs.AI, cs.IR, cs.LG, cs.MM | A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios はコメントを受け付けていません

Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations

要約 音声と音楽からの感情認識には、音響的な重複があるため類似点があり、これらの … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Revisiting Acoustic Similarity in Emotional Speech and Music via Self-Supervised Representations はコメントを受け付けていません

Exploring Event-based Human Pose Estimation with 3D Event Representations

要約 人間の姿勢推定は、コンピューター ビジョンにおける基本的かつ魅力的なタスク … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Exploring Event-based Human Pose Estimation with 3D Event Representations はコメントを受け付けていません

Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling

要約 ラベル付きデータの欠如は、音声分類タスク、特に認知状態分類などの広範な主観 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling はコメントを受け付けていません

HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection

要約 オープン語彙オブジェクト検出 (OVD) モデルは、その広範なトレーニング … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | HA-FGOVD: Highlighting Fine-grained Attributes via Explicit Linear Composition for Open-Vocabulary Object Detection はコメントを受け付けていません

MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion

要約 テキストベースの人間のモーション生成のための、新しいマルチパート融合ベース … 続きを読む

カテゴリー: cs.CV, cs.MM | MoRAG — Multi-Fusion Retrieval Augmented Generation for Human Motion はコメントを受け付けていません