cs.MM」カテゴリーアーカイブ

Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval

要約 テキストビデオ検索の最近の進歩は、主に対照的な学習フレームワークによって推 … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.MM | Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval はコメントを受け付けていません

I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue

要約 対面の相互作用では、音声やジェスチャーを含む複数のモダリティを使用して、情 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | I see what you mean: Co-Speech Gestures for Reference Resolution in Multimodal Dialogue はコメントを受け付けていません

PixelThink: Towards Efficient Chain-of-Pixel Reasoning

要約 既存の推論セグメンテーションアプローチは、通常、画像テキストペアと対応する … 続きを読む

カテゴリー: cs.CV, cs.MM | PixelThink: Towards Efficient Chain-of-Pixel Reasoning はコメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

要約 基礎モデルと大規模な言語モデル(LLMS)の急速な進歩は、ミトリモーダル入 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis はコメントを受け付けていません

Multi-MLLM Knowledge Distillation for Out-of-Context News Detection

要約 マルチモーダルのコンテキスト外ニュースは、元のコンテキストの外で画像が使用 … 続きを読む

カテゴリー: cs.CL, cs.MM | Multi-MLLM Knowledge Distillation for Out-of-Context News Detection はコメントを受け付けていません

Spatial Knowledge Graph-Guided Multimodal Synthesis

要約 マルチモーダル大手言語モデル(MLLM)の最近の進歩により、能力が大幅に向 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Spatial Knowledge Graph-Guided Multimodal Synthesis はコメントを受け付けていません

VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin

要約 スピーカー検証システムのパフォーマンスは、スピーカーの老化によって悪影響を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD | VoxAging: Continuously Tracking Speaker Aging with a Large-Scale Longitudinal Dataset in English and Mandarin はコメントを受け付けていません

LazyVLM: Neuro-Symbolic Approach to Video Analytics

要約 現在のビデオ分析アプローチは、柔軟性と効率性の基本的なトレードオフに直面し … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.DB, cs.IR, cs.MM | LazyVLM: Neuro-Symbolic Approach to Video Analytics はコメントを受け付けていません

Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement

要約 音声強化(SE)は、騒々しい環境での音声の品質と明瞭度を改善することを目的 … 続きを読む

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS | Bridging The Multi-Modality Gaps of Audio, Visual and Linguistic for Speech Enhancement はコメントを受け付けていません

The Many Challenges of Human-Like Agents in Virtual Game Environments

要約 人間のようなエージェントは、ゲームやそれ以降のますます重要なトピックです。 … 続きを読む

カテゴリー: 68T01, cs.AI, cs.HC, cs.MM, H.1.2 | The Many Challenges of Human-Like Agents in Virtual Game Environments はコメントを受け付けていません