「cs.CV」カテゴリーアーカイブ

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

投稿日: 2025年4月14日作成者: jarxiv

要約自己回帰（AR）画像生成では、視覚トークンザーは画像をコンパクトな離散潜在 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

投稿日: 2025年4月14日作成者: jarxiv

要約シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地するこ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition

投稿日: 2025年4月14日作成者: jarxiv

要約手話は、ジェスチャー、表情、身体の動きを通して微妙な表現を可能にする、聴覚 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations

投稿日: 2025年4月14日作成者: jarxiv

要約 Visual Grounding（VG）は、自然言語の説明に基づいて画像に … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Scaling Laws for Native Multimodal Models

投稿日: 2025年4月14日作成者: jarxiv

要約マルチモーダル信号を通じて世界を効果的に知覚できる汎用モデルの構築は、長年 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion

投稿日: 2025年4月11日作成者: jarxiv

要約最近、カメラベースのソリューションがシーンセマンティック完了（SSC）につ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

投稿日: 2025年4月11日作成者: jarxiv

要約最近、拡散モデルは、マルチモードアクション分布をモデル化できるロボットポリ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization

投稿日: 2025年4月11日作成者: jarxiv

要約信頼性の高いローカリゼーションは、複雑な屋内環境でのロボットナビゲーション … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

投稿日: 2025年4月11日作成者: jarxiv

要約最近、Deepseek R1は、補強学習（RL）が、シンプルで効果的なデザ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models

投稿日: 2025年4月11日作成者: jarxiv

要約 VideoCompは、微調整された時間的アライメントでビジョン言語モデル（ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation

ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition

AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations

Scaling Laws for Native Multimodal Models

SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization

VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model

VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー