-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
要約 自己回帰(AR)画像生成では、視覚トークンザーは画像をコンパクトな離散潜在 … 続きを読む
カテゴリー: cs.CV
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation はコメントを受け付けていません
ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis
要約 シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地するこ … 続きを読む
Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition
要約 手話は、ジェスチャー、表情、身体の動きを通して微妙な表現を可能にする、聴覚 … 続きを読む
カテゴリー: cs.CV
Breaking the Barriers: Video Vision Transformers for Word-Level Sign Language Recognition はコメントを受け付けていません
AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations
要約 Visual Grounding(VG)は、自然言語の説明に基づいて画像に … 続きを読む
Scaling Laws for Native Multimodal Models
要約 マルチモーダル信号を通じて世界を効果的に知覚できる汎用モデルの構築は、長年 … 続きを読む
カテゴリー: cs.CV
Scaling Laws for Native Multimodal Models はコメントを受け付けていません
SGFormer: Satellite-Ground Fusion for 3D Semantic Scene Completion
要約 最近、カメラベースのソリューションがシーンセマンティック完了(SSC)につ … 続きを読む
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving
要約 最近、拡散モデルは、マルチモードアクション分布をモデル化できるロボットポリ … 続きを読む
Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization
要約 信頼性の高いローカリゼーションは、複雑な屋内環境でのロボットナビゲーション … 続きを読む
VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model
要約 最近、Deepseek R1は、補強学習(RL)が、シンプルで効果的なデザ … 続きを読む