-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation
要約 ビジョン言語モデル(VLM)は、多様な視覚的および言語的タスクで顕著なパフ … 続きを読む
HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations
要約 拡散モデルは画像生成の最先端を表していますが、それらの高いメモリと計算の要 … 続きを読む
CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models
要約 物理世界での因果関係のモデルの理解をプローブする質問回答ペアで構成されるビ … 続きを読む
UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting
要約 ポイントクラウドデータのスケールの多様性は、3Dビジョンのための統一された … 続きを読む
Outside Knowledge Conversational Video (OKCV) Dataset — Dialoguing over Videos
要約 外部の知識視覚的質問(OK-VQA)では、モデルは画像内に関連する視覚情報 … 続きを読む
Vision Generalist Model: A Survey
要約 最近、私たちは自然言語加工におけるジェネラリストモデルの大成功を目撃しまし … 続きを読む
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing
要約 大規模な言語モデル(LLMS)を使用したテキストの推論が大幅に進歩している … 続きを読む
TerraMind: Large-Scale Generative Multimodality for Earth Observation
要約 地球観測のための最初の生成的なマルチモーダル基礎モデル(EO)であるTer … 続きを読む
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
要約 現代のAIの主な課題は、世界を理解し、観察によって主に行動することを学ぶこ … 続きを読む
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
要約 豊富なマルチモーダル条件を備えたエンドツーエンドの人間のアニメーション、例 … 続きを読む