cs.CV」カテゴリーアーカイブ

LiveXiv — A Multi-Modal Live Benchmark Based on Arxiv Papers Content

要約 Web から収集したデータに関するマルチモーダル モデルの大規模トレーニン … 続きを読む

カテゴリー: cs.CV | LiveXiv — A Multi-Modal Live Benchmark Based on Arxiv Papers Content はコメントを受け付けていません

MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling

要約 マルチモーダル大規模言語モデルの最近の進歩により、画像の理解と生成の両方が … 続きを読む

カテゴリー: cs.CV | MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling はコメントを受け付けていません

Make the Pertinent Salient: Task-Relevant Reconstruction for Visual Control with Distractions

要約 モデルベース強化学習 (MBRL) の最近の進歩により、MBRL は視覚的 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Make the Pertinent Salient: Task-Relevant Reconstruction for Visual Control with Distractions はコメントを受け付けていません

REPeat: A Real2Sim2Real Approach for Pre-acquisition of Soft Food Items in Robot-assisted Feeding

要約 この論文では、ロボット支援による柔らかい食品の給餌における咬合獲得を強化す … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.RO | REPeat: A Real2Sim2Real Approach for Pre-acquisition of Soft Food Items in Robot-assisted Feeding はコメントを受け付けていません

The Ingredients for Robotic Diffusion Transformers

要約 近年、ロボット工学者は、大容量の Transformer ネットワーク ア … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | The Ingredients for Robotic Diffusion Transformers はコメントを受け付けていません

Innovative Deep Learning Techniques for Obstacle Recognition: A Comparative Study of Modern Detection Algorithms

要約 この研究では、高度な YOLO モデル、特に YOLOv8、YOLOv7、 … 続きを読む

カテゴリー: cs.CV, cs.RO | Innovative Deep Learning Techniques for Obstacle Recognition: A Comparative Study of Modern Detection Algorithms はコメントを受け付けていません

Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation

要約 視覚と言語のナビゲーション (VLN) により、エージェントは自然言語の指 … 続きを読む

カテゴリー: cs.CV, cs.RO | Sim-to-Real Transfer via 3D Feature Fields for Vision-and-Language Navigation はコメントを受け付けていません

Fusion-Driven Tree Reconstruction and Fruit Localization: Advancing Precision in Agriculture

要約 果物の流通は、農業と農業ロボットの将来を形作る上で極めて重要であり、合理化 … 続きを読む

カテゴリー: cs.CV, cs.RO | Fusion-Driven Tree Reconstruction and Fruit Localization: Advancing Precision in Agriculture はコメントを受け付けていません

Twisting Lids Off with Two Hands

要約 2 本の多指ハンドで物体を操作することは、多くの操作タスクの接触が多い性質 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Twisting Lids Off with Two Hands はコメントを受け付けていません

PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation

要約 言語ガイドによるロボット操作は、さまざまな複雑な操作タスクを達成するために … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation はコメントを受け付けていません