cs.CV」カテゴリーアーカイブ

VGR: Visual Grounded Reasoning

要約 マルチモーダルの考え方(COT)の推論の分野では、既存のアプローチは主に言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VGR: Visual Grounded Reasoning はコメントを受け付けていません

AgentSense: Virtual Sensor Data Generation Using LLM Agents in Simulated Home Environments

要約 堅牢で一般化可能なスマートホームベースのヒューマンアクティビティ認識(HA … 続きを読む

カテゴリー: cs.CV, cs.HC | AgentSense: Virtual Sensor Data Generation Using LLM Agents in Simulated Home Environments はコメントを受け付けていません

Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving

要約 ロングテールドライビングシナリオでエンドツーエンドの自律運転に合わせて調整 … 続きを読む

カテゴリー: cs.CV, cs.RO | Poutine: Vision-Language-Trajectory Pre-Training and Reinforcement Learning Post-Training Enable Robust End-to-End Autonomous Driving はコメントを受け付けていません

Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation

要約 ロボット操作は、多様な言語指示によって指定された目に見えないオブジェクト、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Gondola: Grounded Vision Language Planning for Generalizable Robotic Manipulation はコメントを受け付けていません

Control Architecture and Design for a Multi-robotic Visual Servoing System in Automated Manufacturing Environment

要約 ロボット技術の使用は、21世紀の製造において大幅に増加しています。 しかし … 続きを読む

カテゴリー: (Primary), 93B52, cs.CV, cs.RO, cs.SY, eess.SY | Control Architecture and Design for a Multi-robotic Visual Servoing System in Automated Manufacturing Environment はコメントを受け付けていません

Linearly Solving Robust Rotation Estimation

要約 回転推定は、コンピュータービジョンおよびロボットタスクに基本的な役割を果た … 続きを読む

カテゴリー: cs.CV, cs.RO, cs.SY, eess.SY | Linearly Solving Robust Rotation Estimation はコメントを受け付けていません

MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space

要約 ビジョン言語モデル(VLM)は、視覚的なレイアウトとテキストを解釈する際の … 続きを読む

カテゴリー: cs.AI, cs.CV | MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space はコメントを受け付けていません

Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation

要約 地球観測のビジョン言語モデル(EO)は通常、視覚的なデータのスペクトルに唯 … 続きを読む

カテゴリー: cs.AI, cs.CV | Beyond the Visible: Multispectral Vision-Language Learning for Earth Observation はコメントを受け付けていません

DMAF-Net: An Effective Modality Rebalancing Framework for Incomplete Multi-Modal Medical Image Segmentation

要約 不完全なマルチモーダル医療画像セグメンテーションは、不均衡なモダリティの欠 … 続きを読む

カテゴリー: cs.CV | DMAF-Net: An Effective Modality Rebalancing Framework for Incomplete Multi-Modal Medical Image Segmentation はコメントを受け付けていません

Foundation Models in Medical Imaging — A Review and Outlook

要約 ファンデーションモデル(FMS)は、非標識データの大規模なコレクションから … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | Foundation Models in Medical Imaging — A Review and Outlook はコメントを受け付けていません