-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
要約 自己回帰パラダイムの顕著な成功により、Multimodal大言語モデル(M … 続きを読む
カテゴリー: cs.CV
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation はコメントを受け付けていません
VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution
要約 3Dボリュームビデオは、没入型の体験を提供し、デジタルメディアで牽引力を獲 … 続きを読む
Diffusion Models without Classifier-free Guidance
要約 このホワイトペーパーでは、一般的に使用される分類器のないガイダンス(CFG … 続きを読む
3D Whole-body Grasp Synthesis with Directional Controllability
要約 オブジェクトを現実的に把握する3D全体の体を合成することは、アニメーション … 続きを読む
Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model
要約 30Bパラメーターと最大204フレームの長さまでのビデオを生成する機能を備 … 続きを読む
Compress image to patches for Vision Transformer
要約 ビジョントランス(VIT)は、コンピュータービジョンの分野で大きな進歩を遂 … 続きを読む
カテゴリー: cs.CV
Compress image to patches for Vision Transformer はコメントを受け付けていません
Magic 1-For-1: Generating One Minute Video Clips within One Minute
要約 このテクニカルレポートでは、最適化されたメモリ消費と推論潜時を備えた効率的 … 続きを読む
カテゴリー: cs.CV
Magic 1-For-1: Generating One Minute Video Clips within One Minute はコメントを受け付けていません
Vision-based Geo-Localization of Future Mars Rotorcraft in Challenging Illumination Conditions
要約 航空資産を使用した惑星探査は、火星に関する前例のない科学的発見の可能性があ … 続きを読む
PUGS: Perceptual Uncertainty for Grasp Selection in Underwater Environments
要約 感覚情報が不完全で不完全な挑戦的な環境でナビゲートおよび相互作用する場合、 … 続きを読む
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models
要約 現在の自律運転車両は、主に個々のセンサーに依存して、周囲のシーンを理解し、 … 続きを読む