「cs.CV」カテゴリーアーカイブ

A Navigation Framework Utilizing Vision-Language Models

投稿日: 2025年6月13日作成者: jarxiv

要約 Vision-and-Language Navigation（VLN）は、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications

投稿日: 2025年6月13日作成者: jarxiv

要約多様な環境とドメインでの堅牢なナビゲーションには、正確な状態推定と透明な意 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.RO | コメントを受け付けていません

Simultaneous Localization and Affordance Prediction of Tasks from Egocentric Video

投稿日: 2025年6月13日作成者: jarxiv

要約 Vision-Language Models（VLM）は、さまざまなドメイ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

投稿日: 2025年6月13日作成者: jarxiv

要約ビジョン言語モデル（VLM）は、自律運転の約束を示していますが、幻覚との闘 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.RO | コメントを受け付けていません

EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence

投稿日: 2025年6月13日作成者: jarxiv

要約具体化されたインテリジェンスタスクのトレーニングと評価には、物理的に現 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition

投稿日: 2025年6月13日作成者: jarxiv

要約最近、大規模な事前訓練を受けたビジョン言語モデル（クリップなど）は、強力な … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PiPViT: Patch-based Visual Interpretable Prototypes for Retinal Image Analysis

投稿日: 2025年6月13日作成者: jarxiv

要約背景と目的：プロトタイプベースの方法は、細粒のパートプロトタイプを学習する … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Consistent Story Generation with Asymmetry Zigzag Sampling

投稿日: 2025年6月13日作成者: jarxiv

要約テキストからイメージの生成モデルは、テキストの説明から高品質の画像の作成に … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ConStyX: Content Style Augmentation for Generalizable Medical Image Segmentation

投稿日: 2025年6月13日作成者: jarxiv

要約医療画像は通常、複数のドメインから収集され、医療画像セグメンテーションモデ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Enhancing Deepfake Detection using SE Block Attention with CNN

投稿日: 2025年6月13日作成者: jarxiv

要約デジタル時代において、Deepfakeは、高度な人工知能を使用して非常に説 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

A Navigation Framework Utilizing Vision-Language Models

PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications

Simultaneous Localization and Affordance Prediction of Tasks from Egocentric Video

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence

TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition

PiPViT: Patch-based Visual Interpretable Prototypes for Retinal Image Analysis

Consistent Story Generation with Asymmetry Zigzag Sampling

ConStyX: Content Style Augmentation for Generalizable Medical Image Segmentation

Enhancing Deepfake Detection using SE Block Attention with CNN

最近の投稿

最近のコメント

アーカイブ

カテゴリー