cs.CV」カテゴリーアーカイブ

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

要約 自己回帰(AR)画像生成では、視覚トークンザーは画像をコンパクトな離散潜在 … 続きを読む

カテゴリー: cs.CV | GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation はコメントを受け付けていません

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

要約 シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地するこ … 続きを読む

カテゴリー: cs.CV, cs.RO | ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis はコメントを受け付けていません

Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition

要約 手話は、ジェスチャー、表情、身体の動きを通して微妙な表現を可能にする、聴覚 … 続きを読む

カテゴリー: cs.CV | Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition はコメントを受け付けていません

AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations

要約 Visual Grounding(VG)は、自然言語の説明に基づいて画像に … 続きを読む

カテゴリー: cs.AI, cs.CV | AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations はコメントを受け付けていません

Scaling Laws for Native Multimodal Models

要約 マルチモーダル信号を通じて世界を効果的に知覚できる汎用モデルの構築は、長年 … 続きを読む

カテゴリー: cs.CV | Scaling Laws for Native Multimodal Models はコメントを受け付けていません

SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion

要約 最近、カメラベースのソリューションがシーンセマンティック完了(SSC)につ … 続きを読む

カテゴリー: cs.CV, cs.RO | SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion はコメントを受け付けていません

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

要約 最近、拡散モデルは、マルチモードアクション分布をモデル化できるロボットポリ … 続きを読む

カテゴリー: cs.CV, cs.RO | DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving はコメントを受け付けていません

Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization

要約 信頼性の高いローカリゼーションは、複雑な屋内環境でのロボットナビゲーション … 続きを読む

カテゴリー: cs.CV, cs.RO | Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization はコメントを受け付けていません

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

要約 最近、Deepseek R1は、補強学習(RL)が、シンプルで効果的なデザ … 続きを読む

カテゴリー: cs.CL, cs.CV | VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model はコメントを受け付けていません

VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models

要約 VideoCompは、微調整された時間的アライメントでビジョン言語モデル( … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models はコメントを受け付けていません