cs.CV」カテゴリーアーカイブ

GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

要約 世界モデルの最近の進歩は、動的環境シミュレーションに革命をもたらし、システ … 続きを読む

カテゴリー: cs.CV, cs.RO | GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control はコメントを受け付けていません

Zero-Shot 3D Visual Grounding from Vision-Language Models

要約 3D Visual Grounding(3DVG)は、自然言語の説明を使用 … 続きを読む

カテゴリー: cs.CV, cs.RO | Zero-Shot 3D Visual Grounding from Vision-Language Models はコメントを受け付けていません

Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO

要約 トレーニング後の段階でのマルチモーダル大手言語モデル(MLLMS)の改善は … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO はコメントを受け付けていません

Fostering Video Reasoning via Next-Event Prediction

要約 次のトークン予測は、LLMSの推論を可能にする基礎学習タスクとして機能しま … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Fostering Video Reasoning via Next-Event Prediction はコメントを受け付けていません

Universal Domain Adaptation for Semantic Segmentation

要約 セマンティックセグメンテーション(UDA-SS)の監視されていないドメイン … 続きを読む

カテゴリー: cs.CV | Universal Domain Adaptation for Semantic Segmentation はコメントを受け付けていません

SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels

要約 3D占有予測は、強力な幾何学的認識とオブジェクト認識能力のために、自律運転 … 続きを読む

カテゴリー: cs.CV | SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels はコメントを受け付けていません

Single Domain Generalization for Alzheimer’s Detection from 3D MRIs with Pseudo-Morphological Augmentations and Contrastive Learning

要約 AlzheimerのMRISによる疾患検出は、現代の深い学習モデルのおかげ … 続きを読む

カテゴリー: cs.CV | Single Domain Generalization for Alzheimer’s Detection from 3D MRIs with Pseudo-Morphological Augmentations and Contrastive Learning はコメントを受け付けていません

VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models

要約 マルチモーダル大手言語モデル(MLRMS)の出現により、強化学習と考え方( … 続きを読む

カテゴリー: cs.CV | VisCRA: A Visual Chain Reasoning Attack for Jailbreaking Multimodal Large Language Models はコメントを受け付けていません

A Closer Look at Multimodal Representation Collapse

要約 私たちは、モダリティ崩壊の基本的な理解を開発することを目指しています。これ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | A Closer Look at Multimodal Representation Collapse はコメントを受け付けていません

Understanding Adversarial Training with Energy-based Models

要約 エネルギーベースのモデル(EBM)フレームワークを使用して、分類器の敵対的 … 続きを読む

カテゴリー: cs.CV, cs.LG | Understanding Adversarial Training with Energy-based Models はコメントを受け付けていません