cs.CV」カテゴリーアーカイブ

Person Segmentation and Action Classification for Multi-Channel Hemisphere Field of View LiDAR Sensors

要約 ロボットは安全のために周囲にいる人を認識し、彼らと対話する必要があります。 … 続きを読む

カテゴリー: cs.CV, cs.RO | Person Segmentation and Action Classification for Multi-Channel Hemisphere Field of View LiDAR Sensors はコメントを受け付けていません

PickScan: Object discovery and reconstruction from handheld interactions

要約 各オブジェクトが独自の 3D モデルで表現されるシーンの構成 3D 表現を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO, I.4.5 | PickScan: Object discovery and reconstruction from handheld interactions はコメントを受け付けていません

Multi-modal Situated Reasoning in 3D Scenes

要約 状況認識は、身体化された AI エージェントの 3D シーンを理解し推論す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | Multi-modal Situated Reasoning in 3D Scenes はコメントを受け付けていません

DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

要約 自動運転の評価には、現実世界の感覚データや応答性の高いフィードバック ルー … 続きを読む

カテゴリー: cs.CV, cs.RO | DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation はコメントを受け付けていません

IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos

要約 形状の組み立ては日常生活のいたるところで行われる作業であり、IKEA 家具 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos はコメントを受け付けていません

MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models

要約 放射線科レポートの生成、特に胸部 X 線 (CXR) の生成に AI を適 … 続きを読む

カテゴリー: cs.CL, cs.CV | MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models はコメントを受け付けていません

Exploring Emerging Trends and Research Opportunities in Visual Place Recognition

要約 画像分類、物体検出などの視覚ベースの認識は、コンピュータ ビジョンおよびロ … 続きを読む

カテゴリー: cs.CV, cs.RO | Exploring Emerging Trends and Research Opportunities in Visual Place Recognition はコメントを受け付けていません

Look a Group at Once: Multi-Slide Modeling for Survival Prediction

要約 生存予測は病理学において重要なタスクです。 臨床現場では、病理学者は多くの … 続きを読む

カテゴリー: cs.CV | Look a Group at Once: Multi-Slide Modeling for Survival Prediction はコメントを受け付けていません

Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment

要約 大規模言語モデル (LLM) と事前トレーニング済み視覚モデルの最近の進歩 … 続きを読む

カテゴリー: cs.CL, cs.CV | Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment はコメントを受け付けていません

LaVin-DiT: Large Vision Diffusion Transformer

要約 この論文では、生成フレームワークで 20 を超えるコンピューター ビジョン … 続きを読む

カテゴリー: cs.CV | LaVin-DiT: Large Vision Diffusion Transformer はコメントを受け付けていません