-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Understanding Long Videos with Multimodal Language Models
要約 大規模な言語モデル(LLM)により、最近のLLMベースのアプローチが可能に … 続きを読む
カテゴリー: cs.CV
Understanding Long Videos with Multimodal Language Models はコメントを受け付けていません
Efficient Part-level 3D Object Generation via Dual Volume Packing
要約 3Dオブジェクトの生成の最近の進歩により、品質と効率の両方が大幅に改善され … 続きを読む
カテゴリー: cs.CV
Efficient Part-level 3D Object Generation via Dual Volume Packing はコメントを受け付けていません
ReSim: Reliable World Simulation for Autonomous Driving
要約 幅広いエゴ運転行動の下で、将来の運転シナリオをどのように確実にシミュレート … 続きを読む
AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation
要約 4Dコンテンツ生成の最近の進歩により、注目が高まっていますが、高品質のアニ … 続きを読む
カテゴリー: cs.CV
AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation はコメントを受け付けていません
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
要約 現代のAIの主な課題は、世界を理解し、観察によって主に行動することを学ぶこ … 続きを読む
InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
要約 豊富なマルチモーダル条件を備えたエンドツーエンドの人間のアニメーション、例 … 続きを読む
A Shortcut-aware Video-QA Benchmark for Physical Understanding via Minimal Video Pairs
要約 ビデオ言語モデルの時空間的理解と推論能力を評価するための既存のベンチマーク … 続きを読む
EditInspector: A Benchmark for Evaluation of Text-Guided Image Edits
要約 生成AIの最近の進歩に支えられたテキスト誘導画像編集は、ますます広まってい … 続きを読む
Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes
要約 次の質問をすることにより、3Dシーンの再構成をインタラクティブに再構築する … 続きを読む
カテゴリー: cs.CV
Hearing Hands: Generating Sounds from Physical Interactions in 3D Scenes はコメントを受け付けていません
Spectral Image Tokenizer
要約 画像トークナーは、画像を離散トークンのシーケンスにマッピングし、自己回帰ト … 続きを読む