cs.CV」カテゴリーアーカイブ

Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

要約 このペーパーでは、ゼロショットセットアップでテキストからイメージモデルを使 … 続きを読む

カテゴリー: cs.CL, cs.CV | Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark はコメントを受け付けていません

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

要約 GPT-4Oは、多様な感情やトーンとのボーカルな会話を可能にするオムニモー … 続きを読む

カテゴリー: cs.CL, cs.CV | EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions はコメントを受け付けていません

World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

要約 大規模な視覚言語モデル(LVLMS)の最近の進歩は、具体化されたタスク計画 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning はコメントを受け付けていません

Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention

要約 半監視学習は、労働集約的なピクセルレベルのラベル付けの負担を軽減するために … 続きを読む

カテゴリー: cs.AI, cs.CV | Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention はコメントを受け付けていません

PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

要約 Video Virtual Try-Onは、視覚的な忠実度と時間的一貫性の … 続きを読む

カテゴリー: cs.AI, cs.CV | PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm はコメントを受け付けていません

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models

要約 単一のフレームワーク内の多様な画像生成タスクを統合することは、視覚生成にお … 続きを読む

カテゴリー: cs.AI, cs.CV | RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models はコメントを受け付けていません

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

要約 この論文では、具体化されたマルチエージェント協力の問題を調査します。そこで … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MA | COMBO: Compositional World Models for Embodied Multi-Agent Cooperation はコメントを受け付けていません

Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation

要約 Surgical Video-Language Pretraining(V … 続きを読む

カテゴリー: cs.AI, cs.CV | Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation はコメントを受け付けていません

HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition

要約 自然言語は、生のテキストから幅広い監督源を提供することにより、ジェネラリス … 続きを読む

カテゴリー: cs.AI, cs.CV | HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition はコメントを受け付けていません

Fast MRI for All: Bridging Equity Gaps via Training without Raw Data Access

要約 物理主導のディープラーニング(PD-DL)アプローチは、高速磁気共鳴画像( … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | Fast MRI for All: Bridging Equity Gaps via Training without Raw Data Access はコメントを受け付けていません