cs.CV」カテゴリーアーカイブ

Capturing Human Motion from Monocular Images in World Space with Weak-supervised Calibration

要約 従来の単眼画像からの3D人体運動復元手法は、カメラ座標に依存しているため、 … 続きを読む

カテゴリー: cs.CV | Capturing Human Motion from Monocular Images in World Space with Weak-supervised Calibration はコメントを受け付けていません

A Survey on Responsible Generative AI: What to Generate and What Not

要約 近年、大規模言語モデルやテキスト画像モデルのような生成AI(GenAI)は … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY | A Survey on Responsible Generative AI: What to Generate and What Not はコメントを受け付けていません

A Survey for Foundation Models in Autonomous Driving

要約 基礎モデルの登場は、自然言語処理とコンピュータビジョンの分野に革命をもたら … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | A Survey for Foundation Models in Autonomous Driving はコメントを受け付けていません

S3E: A Mulit-Robot Multimodal Dataset for Collaborative SLAM

要約 複雑なタスクを集団で実行する協働ロボットシステムに対する需要が急増している … 続きを読む

カテゴリー: cs.CV, cs.RO | S3E: A Mulit-Robot Multimodal Dataset for Collaborative SLAM はコメントを受け付けていません

NEDS-SLAM: A Neural Explicit Dense Semantic SLAM Framework using 3D Gaussian Splatting

要約 我々は、3次元ガウス表現に基づく高密度セマンティックSLAMシステムである … 続きを読む

カテゴリー: cs.CV, cs.RO | NEDS-SLAM: A Neural Explicit Dense Semantic SLAM Framework using 3D Gaussian Splatting はコメントを受け付けていません

Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery

要約 医療ビジュアル質問応答(VQA)は、視覚情報と臨床的意思決定のギャップを埋 … 続きを読む

カテゴリー: cs.CV, cs.RO | Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery はコメントを受け付けていません

DarkGS: Learning Neural Illumination and 3D Gaussians Relighting for Robotic Exploration in the Dark

要約 人間は、限られた照度や様々な照度の下でも、環境の一貫したメンタルモデルを構 … 続きを読む

カテゴリー: cs.CV, cs.RO | DarkGS: Learning Neural Illumination and 3D Gaussians Relighting for Robotic Exploration in the Dark はコメントを受け付けていません

REBEL: Reinforcement Learning via Regressing Relative Rewards

要約 プロキシマル・ポリシー最適化(PPO)は、元々は連続制御問題のために開発さ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | REBEL: Reinforcement Learning via Regressing Relative Rewards はコメントを受け付けていません

MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms

要約 ソーシャルメディア・プラットフォームは、テキスト、画像、動画を含むマルチモ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.CY | MM-Soc: Benchmarking Multimodal Large Language Models in Social Media Platforms はコメントを受け付けていません

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

要約 本研究では、特にLLaVA-1.5、QwenVL-Chat、Video-L … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models はコメントを受け付けていません