「cs.CV」カテゴリーアーカイブ

AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation

投稿日: 2025年5月6日作成者: jarxiv

要約胸部 X 線（CXR）は臨床現場で最も頻繁に行われる画像検査である。最近の … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

投稿日: 2025年5月6日作成者: jarxiv

要約最近の研究では、意味のある内部表現を学習することで、生成学習を高速化し、拡 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TWIST: Teleoperated Whole-Body Imitation System

投稿日: 2025年5月6日作成者: jarxiv

要約ヒューマノイドロボットを全身で遠隔操作することは、汎用的なロボット知能を開 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

投稿日: 2025年5月6日作成者: jarxiv

要約マルチモーダル報酬モデル(MRM)は、マルチモーダル大規模言語モデル(ML … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

投稿日: 2025年5月6日作成者: jarxiv

要約テキストからインタラクティブな3Dシーンを合成することは、ゲーム、バーチャ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TSTMotion: Training-free Scene-aware Text-to-motion Generation

投稿日: 2025年5月6日作成者: jarxiv

要約テキスト-トゥ-モーション生成は、最近、主に空白の背景における人間の動きシ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Autonomous Embodied Agents: When Robotics Meets Deep Learning Reasoning

投稿日: 2025年5月5日作成者: jarxiv

要約利用可能な計算能力の向上とディープラーニング革命により、人工知能研究におけ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

DriveGPT: Scaling Autoregressive Behavior Models for Driving

投稿日: 2025年5月5日作成者: jarxiv

要約我々は、自律走行のためのスケーラブルな行動モデルであるDriveGPTを発 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Optimizing Indoor Farm Monitoring Efficiency Using UAV: Yield Estimation in a GNSS-Denied Cherry Tomato Greenhouse

投稿日: 2025年5月5日作成者: jarxiv

要約農業従事者の減少や人件費の高騰に伴い、ロボットによる収穫量推定の重要性が増 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

Towards the Resistance of Neural Network Watermarking to Fine-tuning

投稿日: 2025年5月5日作成者: jarxiv

要約本稿では、ディープニューラルネットワーク(DNN)に所有者情報を埋め込むた … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

TWIST: Teleoperated Whole-Body Imitation System

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

TSTMotion: Training-free Scene-aware Text-to-motion Generation

Autonomous Embodied Agents: When Robotics Meets Deep Learning Reasoning

DriveGPT: Scaling Autoregressive Behavior Models for Driving

Optimizing Indoor Farm Monitoring Efficiency Using UAV: Yield Estimation in a GNSS-Denied Cherry Tomato Greenhouse

Towards the Resistance of Neural Network Watermarking to Fine-tuning

最近の投稿

最近のコメント

アーカイブ

カテゴリー