月別アーカイブ: 2025年2月

NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing

要約 視覚音声認識(VSR)の最近の進歩は、唇からスピーチの合成の進歩を促進しま … 続きを読む

カテゴリー: cs.CV, cs.SD, eess.AS | NaturalL2S: End-to-End High-quality Multispeaker Lip-to-Speech Synthesis with Differential Digital Signal Processing はコメントを受け付けていません

Predicting Next-Day Wildfire Spread with Time Series and Attention

要約 最近の研究では、影響力のある環境共変量の現在の火災と地理空間ラスターなど、 … 続きを読む

カテゴリー: cs.CV | Predicting Next-Day Wildfire Spread with Time Series and Attention はコメントを受け付けていません

Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models

要約 実際のシナリオでは、モデルが未知のターゲット分布に適応または一般化する必要 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Advances in Multimodal Adaptation and Generalization: From Traditional Approaches to Foundation Models はコメントを受け付けていません

Enhancing Transparent Object Pose Estimation: A Fusion of GDR-Net and Edge Detection

要約 透明なオブジェクトのオブジェクトのポーズ推定は、照明、背景、および反射の大 … 続きを読む

カテゴリー: cs.CV | Enhancing Transparent Object Pose Estimation: A Fusion of GDR-Net and Edge Detection はコメントを受け付けていません

HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

要約 統一された自己回帰パラダイム内に医学的視覚的理解と生成能力を統合する強力な … 続きを読む

カテゴリー: cs.AI, cs.CV | HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation はコメントを受け付けていません

Understanding Figurative Meaning through Explainable Visual Entailment

要約 大規模なビジョン言語モデル(VLM)は、視覚的な質問や視覚的誘惑など、画像 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Understanding Figurative Meaning through Explainable Visual Entailment はコメントを受け付けていません

Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations

要約 霊長類の腹側視覚河川の機能的役割の研究は、伝統的にオブジェクトの分類に焦点 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.NE, q-bio.NC | Vision CNNs trained to estimate spatial latents learned similar ventral-stream-aligned representations はコメントを受け付けていません

HumanGif: Single-View Human Diffusion with Generative Prior

要約 以前のシングルビューベースの3Dヒューマン再構成方法は、新しいビューの合成 … 続きを読む

カテゴリー: cs.CV | HumanGif: Single-View Human Diffusion with Generative Prior はコメントを受け付けていません

Unhackable Temporal Rewarding for Scalable Video MLLMs

要約 優れたビデオ処理MLLMを追求するために、私たちは困惑するパラドックスに遭 … 続きを読む

カテゴリー: cs.CL, cs.CV | Unhackable Temporal Rewarding for Scalable Video MLLMs はコメントを受け付けていません

CLEAR: Character Unlearning in Textual and Visual Modalities

要約 Machine Ulderning(MU)は、深い学習モデルからプライベー … 続きを読む

カテゴリー: cs.CL, cs.CV | CLEAR: Character Unlearning in Textual and Visual Modalities はコメントを受け付けていません