「cs.CV」カテゴリーアーカイブ

Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

投稿日: 2025年3月14日作成者: jarxiv

要約このペーパーでは、ゼロショットセットアップでテキストからイメージモデルを使 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

投稿日: 2025年3月14日作成者: jarxiv

要約 GPT-4Oは、多様な感情やトーンとのボーカルな会話を可能にするオムニモー … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

投稿日: 2025年3月14日作成者: jarxiv

要約大規模な視覚言語モデル（LVLMS）の最近の進歩は、具体化されたタスク計画 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.RO | コメントを受け付けていません

Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention

投稿日: 2025年3月14日作成者: jarxiv

要約半監視学習は、労働集約的なピクセルレベルのラベル付けの負担を軽減するために … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

投稿日: 2025年3月14日作成者: jarxiv

要約 Video Virtual Try-Onは、視覚的な忠実度と時間的一貫性の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models

投稿日: 2025年3月14日作成者: jarxiv

要約単一のフレームワーク内の多様な画像生成タスクを統合することは、視覚生成にお … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

投稿日: 2025年3月14日作成者: jarxiv

要約この論文では、具体化されたマルチエージェント協力の問題を調査します。そこで … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MA | コメントを受け付けていません

Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation

投稿日: 2025年3月14日作成者: jarxiv

要約 Surgical Video-Language Pretraining（V … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition

投稿日: 2025年3月14日作成者: jarxiv

要約自然言語は、生のテキストから幅広い監督源を提供することにより、ジェネラリス … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Fast MRI for All: Bridging Equity Gaps via Training without Raw Data Access

投稿日: 2025年3月14日作成者: jarxiv

要約物理主導のディープラーニング（PD-DL）アプローチは、高速磁気共鳴画像（ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention

PEMF-VTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm

RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation

Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation

HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition

Fast MRI for All: Bridging Equity Gaps via Training without Raw Data Access

最近の投稿

最近のコメント

アーカイブ

カテゴリー