「cs.CV」カテゴリーアーカイブ

Person Segmentation and Action Classification for Multi-Channel Hemisphere Field of View LiDAR Sensors

投稿日: 2024年11月19日作成者: jarxiv

要約ロボットは安全のために周囲にいる人を認識し、彼らと対話する必要があります。 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

PickScan: Object discovery and reconstruction from handheld interactions

投稿日: 2024年11月19日作成者: jarxiv

要約各オブジェクトが独自の 3D モデルで表現されるシーンの構成 3D 表現を … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO, I.4.5 | コメントを受け付けていません

Multi-modal Situated Reasoning in 3D Scenes

投稿日: 2024年11月19日作成者: jarxiv

要約状況認識は、身体化された AI エージェントの 3D シーンを理解し推論す … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

投稿日: 2024年11月19日作成者: jarxiv

要約自動運転の評価には、現実世界の感覚データや応答性の高いフィードバックルー … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos

投稿日: 2024年11月19日作成者: jarxiv

要約形状の組み立ては日常生活のいたるところで行われる作業であり、IKEA 家具 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models

投稿日: 2024年11月19日作成者: jarxiv

要約放射線科レポートの生成、特に胸部 X 線 (CXR) の生成に AI を適 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Exploring Emerging Trends and Research Opportunities in Visual Place Recognition

投稿日: 2024年11月19日作成者: jarxiv

要約画像分類、物体検出などの視覚ベースの認識は、コンピュータビジョンおよびロ … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Look a Group at Once: Multi-Slide Modeling for Survival Prediction

投稿日: 2024年11月19日作成者: jarxiv

要約生存予測は病理学において重要なタスクです。臨床現場では、病理学者は多くの … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment

投稿日: 2024年11月19日作成者: jarxiv

要約大規模言語モデル (LLM) と事前トレーニング済み視覚モデルの最近の進歩 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

LaVin-DiT: Large Vision Diffusion Transformer

投稿日: 2024年11月19日作成者: jarxiv

要約この論文では、生成フレームワークで 20 を超えるコンピュータービジョン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Person Segmentation and Action Classification for Multi-Channel Hemisphere Field of View LiDAR Sensors

PickScan: Object discovery and reconstruction from handheld interactions

Multi-modal Situated Reasoning in 3D Scenes

DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos

MAIRA-Seg: Enhancing Radiology Report Generation with Segmentation-Aware Multimodal Large Language Models

Exploring Emerging Trends and Research Opportunities in Visual Place Recognition

Look a Group at Once: Multi-Slide Modeling for Survival Prediction

Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment

LaVin-DiT: Large Vision Diffusion Transformer

最近の投稿

最近のコメント

アーカイブ

カテゴリー