-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
ARFlow: Human Action-Reaction Flow Matching with Physical Guidance
要約 因果的な人間の相互作用をモデル化する際の基本的な課題である人間の行動反応統 … 続きを読む
PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?
要約 マルチモーダルの大手言語モデル(MLLM)の境界をピクセルレベルの理解に向 … 続きを読む
カテゴリー: cs.CV
PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models? はコメントを受け付けていません
Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training
要約 最近のVision Mamba(VIM)モデルは、シーケンスの長さがほぼ線 … 続きを読む
カテゴリー: cs.CV
Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training はコメントを受け付けていません
Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles
要約 ルールベースの強化学習(RL)をマルチモーダル大手言語モデル(MLLMS) … 続きを読む
Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models
要約 現在のビジョン言語マルチモーダルモデルは、一般的な視覚的理解タスクに適して … 続きを読む
カテゴリー: cs.CV
Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models はコメントを受け付けていません
Parameter Efficient Fine-Tuning of Segment Anything Model for Biomedical Imaging
要約 セグメンテーションは、生物医学画像の重要な分析タスクであり、個々のオルガネ … 続きを読む
カテゴリー: cs.CV
Parameter Efficient Fine-Tuning of Segment Anything Model for Biomedical Imaging はコメントを受け付けていません
OmniCaptioner: One Captioner to Rule Them All
要約 Omnicaptionerを提案します。これは、さまざまな視覚ドメインにわ … 続きを読む
DIS-CO: Discovering Copyrighted Content in VLMs Training Data
要約 トレーニングデータに直接アクセスすることなく、著作権で保護されたコンテンツ … 続きを読む
CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image
要約 このペーパーは、ロボット操作タスクにおける明確なオブジェクトのカテゴリレベ … 続きを読む