cs.CV」カテゴリーアーカイブ

Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation

要約 注意ベースの方法は、従来の幾何学的深部学習(GDL)モデルを上回り、球状の … 続きを読む

カテゴリー: cs.AI, cs.CV | Surface Vision Mamba: Leveraging Bidirectional State Space Model for Efficient Spherical Manifold Representation はコメントを受け付けていません

Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval

要約 ビデオモーメント検索は、視覚言語モデルのパフォーマンスを評価するための一般 … 続きを読む

カテゴリー: cs.CV | Moment of Untruth: Dealing with Negative Queries in Video Moment Retrieval はコメントを受け付けていません

When do they StOP?: A First Step Towards Automatically Identifying Team Communication in the Operating Room

要約 目的:外科的パフォーマンスは、外科医の技術的スキルだけでなく、手術中に存在 … 続きを読む

カテゴリー: cs.CV | When do they StOP?: A First Step Towards Automatically Identifying Team Communication in the Operating Room はコメントを受け付けていません

PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models

要約 大規模なマルチモーダルモデル(LMM)は、視覚的なシーンの解釈と推論におい … 続きを読む

カテゴリー: cs.CV | PulseCheck457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models はコメントを受け付けていません

Robot Instance Segmentation with Few Annotations for Grasping

要約 ロボットがオブジェクトを操作する能力は、視覚的認識に適したことに大きく依存 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Robot Instance Segmentation with Few Annotations for Grasping はコメントを受け付けていません

NanoMVG: USV-Centric Low-Power Multi-Task Visual Grounding based on Prompt-Guided Camera and 4D mmWave Radar

要約 最近、視覚的な接地とマルチセンサーの設定が、陸生自治駆動システムと無人の表 … 続きを読む

カテゴリー: cs.CV, cs.RO | NanoMVG: USV-Centric Low-Power Multi-Task Visual Grounding based on Prompt-Guided Camera and 4D mmWave Radar はコメントを受け付けていません

EmbodiedSAM: Online Segment Any 3D Thing in Real Time

要約 具体化されたタスクでは、エージェントがその探索と同時に3Dシーンを完全に理 … 続きを読む

カテゴリー: cs.CV, cs.RO | EmbodiedSAM: Online Segment Any 3D Thing in Real Time はコメントを受け付けていません

Observe Then Act: Asynchronous Active Vision-Action Model for Robotic Manipulation

要約 実際のシナリオでは、多くのロボット操作タスクが閉塞と限られた視野によって妨 … 続きを読む

カテゴリー: cs.CV, cs.RO | Observe Then Act: Asynchronous Active Vision-Action Model for Robotic Manipulation はコメントを受け付けていません

DriveGPT: Scaling Autoregressive Behavior Models for Driving

要約 自律運転のスケーラブルな動作モデルであるDriveGPTを提示します。 運 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | DriveGPT: Scaling Autoregressive Behavior Models for Driving はコメントを受け付けていません

Robotic Grasping of Harvested Tomato Trusses Using Vision and Online Learning

要約 現在、Truss Tomatoの計量とパッケージには、かなりの手動作業が必 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Robotic Grasping of Harvested Tomato Trusses Using Vision and Online Learning はコメントを受け付けていません