-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Emotion-Guided Image to Music Generation
要約 画像から音楽を生成すると、写真スライドショー、ソーシャル メディア エクス … 続きを読む
Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention
要約 マルチオブジェクト 3D グラウンディングには、点群からの特定のクエリ フ … 続きを読む
カテゴリー: cs.CV
Multi-Object 3D Grounding with Dynamic Modules and Language-Informed Spatial Attention はコメントを受け付けていません
Effective Guidance for Model Attention with Simple Yes-no Annotations
要約 最新の深層学習モデルは、多くの場合、無関係な領域に焦点を当てて予測を行うた … 続きを読む
Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving
要約 エンドツーエンドの自動運転は、大規模なデータを使用した強力な計画能力を実証 … 続きを読む
Natural Language Inference Improves Compositionality in Vision-Language Models
要約 視覚言語モデル (VLM) の構成推論は、オブジェクト、属性、空間関係を関 … 続きを読む
Multi-Class Textual-Inversion Secretly Yields a Semantic-Agnostic Classifier
要約 CLIP などの大規模な事前トレーニング済み視覚言語モデルの出現により、即 … 続きを読む
カテゴリー: cs.CV
Multi-Class Textual-Inversion Secretly Yields a Semantic-Agnostic Classifier はコメントを受け付けていません
Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset
要約 視覚表現の事前トレーニングにより、ロボットの学習効率が向上しました。 大規 … 続きを読む
Task Vectors are Cross-Modal
要約 私たちは、視覚と言語モデル (VLM) の内部表現と、VLM がタスク表現 … 続きを読む
Local Policies Enable Zero-shot Long-horizon Manipulation
要約 ロボット操作用の Sim2real は、複雑な接触をシミュレートし、現実的 … 続きを読む
Enhancing Learned Image Compression via Cross Window-based Attention
要約 近年、学習された画像圧縮方法は、従来の画像圧縮方法と比較して優れたレート歪 … 続きを読む