cs.CV」カテゴリーアーカイブ

A Navigation Framework Utilizing Vision-Language Models

要約 Vision-and-Language Navigation(VLN)は、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | A Navigation Framework Utilizing Vision-Language Models はコメントを受け付けていません

PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications

要約 多様な環境とドメインでの堅牢なナビゲーションには、正確な状態推定と透明な意 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.RO | PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications はコメントを受け付けていません

Simultaneous Localization and Affordance Prediction of Tasks from Egocentric Video

要約 Vision-Language Models(VLM)は、さまざまなドメイ … 続きを読む

カテゴリー: cs.CV, cs.RO | Simultaneous Localization and Affordance Prediction of Tasks from Egocentric Video はコメントを受け付けていません

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

要約 ビジョン言語モデル(VLM)は、自律運転の約束を示していますが、幻覚との闘 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving はコメントを受け付けていません

EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence

要約 具体化されたインテリジェンスタスクのトレーニングと評価には、物理​​的に現 … 続きを読む

カテゴリー: cs.CV, cs.RO | EmbodiedGen: Towards a Generative 3D World Engine for Embodied Intelligence はコメントを受け付けていません

TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition

要約 最近、大規模な事前訓練を受けたビジョン言語モデル(クリップなど)は、強力な … 続きを読む

カテゴリー: cs.CV | TDS-CLIP: Temporal Difference Side Network for Efficient VideoAction Recognition はコメントを受け付けていません

PiPViT: Patch-based Visual Interpretable Prototypes for Retinal Image Analysis

要約 背景と目的:プロトタイプベースの方法は、細粒のパートプロトタイプを学習する … 続きを読む

カテゴリー: cs.AI, cs.CV | PiPViT: Patch-based Visual Interpretable Prototypes for Retinal Image Analysis はコメントを受け付けていません

Consistent Story Generation with Asymmetry Zigzag Sampling

要約 テキストからイメージの生成モデルは、テキストの説明から高品質の画像の作成に … 続きを読む

カテゴリー: cs.CV | Consistent Story Generation with Asymmetry Zigzag Sampling はコメントを受け付けていません

ConStyX: Content Style Augmentation for Generalizable Medical Image Segmentation

要約 医療画像は通常、複数のドメインから収集され、医療画像セグメンテーションモデ … 続きを読む

カテゴリー: cs.CV, eess.IV | ConStyX: Content Style Augmentation for Generalizable Medical Image Segmentation はコメントを受け付けていません

Enhancing Deepfake Detection using SE Block Attention with CNN

要約 デジタル時代において、Deepfakeは、高度な人工知能を使用して非常に説 … 続きを読む

カテゴリー: cs.CV | Enhancing Deepfake Detection using SE Block Attention with CNN はコメントを受け付けていません