cs.CV」カテゴリーアーカイブ

SurgPose: Generalisable Surgical Instrument Pose Estimation using Zero-Shot Learning and Stereo Vision

要約 ロボット支援低侵襲手術(RMIS)における外科的ツールの正確なポーズ推定は … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | SurgPose: Generalisable Surgical Instrument Pose Estimation using Zero-Shot Learning and Stereo Vision はコメントを受け付けていません

VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding

要約 合成ビデオ生成は、そのリアリズムと幅広いアプリケーションに対して大きな注目 … 続きを読む

カテゴリー: cs.CV, cs.LG | VideoHallu: Evaluating and Mitigating Multi-modal Hallucinations on Synthetic Video Understanding はコメントを受け付けていません

Disentangling CLIP for Multi-Object Perception

要約 Clip Excelのようなビジョン言語モデルは、シーン内の単一の顕著なオ … 続きを読む

カテゴリー: cs.CV | Disentangling CLIP for Multi-Object Perception はコメントを受け付けていません

HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation

要約 大規模なマルチモーダルモデル(LMMS)は現在、多くのビジョン言語ベンチマ … 続きを読む

カテゴリー: cs.AI, cs.CV | HumaniBench: A Human-Centric Framework for Large Multimodal Models Evaluation はコメントを受け付けていません

Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers

要約 変圧器ベースのモデルは、解釈が困難な隠された状態を生成します。 この作業で … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers はコメントを受け付けていません

Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views

要約 ビジョンベースのロボット操作は、カメラを使用して、操作するオブジェクトを含 … 続きを読む

カテゴリー: cs.CV, cs.RO | Exploiting Radiance Fields for Grasp Generation on Novel Synthetic Views はコメントを受け付けていません

PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment

要約 拡散モデルは、テキストの説明から高品質の画像を生成する際に顕著な進歩を遂げ … 続きを読む

カテゴリー: cs.CV | PSDiffusion: Harmonized Multi-Layer Image Generation via Layout and Appearance Alignment はコメントを受け付けていません

INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation

要約 自律駆動システムは、敵対的な歩行者の動き、危険な車両の操作、突然の環境の変 … 続きを読む

カテゴリー: cs.AI, cs.CV | INSIGHT: Enhancing Autonomous Driving Safety through Vision-Language Models on Context-Aware Hazard Detection and Edge Case Evaluation はコメントを受け付けていません

CoMP: Continual Multimodal Pre-training for Vision Foundation Models

要約 事前に訓練されたVision Foundationモデル(VFM)は、幅広 … 続きを読む

カテゴリー: cs.CV | CoMP: Continual Multimodal Pre-training for Vision Foundation Models はコメントを受け付けていません

Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models

要約 拡散モデルは、イメージングの逆の問題の事前に広く使用されています。 ただし … 続きを読む

カテゴリー: cs.CV | Unsupervised Detection of Distribution Shift in Inverse Problems using Diffusion Models はコメントを受け付けていません