cs.CV」カテゴリーアーカイブ

ARFlow: Human Action-Reaction Flow Matching with Physical Guidance

要約 因果的な人間の相互作用をモデル化する際の基本的な課題である人間の行動反応統 … 続きを読む

カテゴリー: cs.AI, cs.CV | ARFlow: Human Action-Reaction Flow Matching with Physical Guidance はコメントを受け付けていません

PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?

要約 マルチモーダルの大手言語モデル(MLLM)の境界をピクセルレベルの理解に向 … 続きを読む

カテゴリー: cs.CV | PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models? はコメントを受け付けていません

Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training

要約 最近のVision Mamba(VIM)モデルは、シーケンスの長さがほぼ線 … 続きを読む

カテゴリー: cs.CV | Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training はコメントを受け付けていません

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

要約 ルールベースの強化学習(RL)をマルチモーダル大手言語モデル(MLLMS) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles はコメントを受け付けていません

Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models

要約 現在のビジョン言語マルチモーダルモデルは、一般的な視覚的理解タスクに適して … 続きを読む

カテゴリー: cs.CV | Keypoint-Integrated Instruction-Following Data Generation for Enhanced Human Pose and Action Understanding in Multimodal Models はコメントを受け付けていません

Parameter Efficient Fine-Tuning of Segment Anything Model for Biomedical Imaging

要約 セグメンテーションは、生物医学画像の重要な分析タスクであり、個々のオルガネ … 続きを読む

カテゴリー: cs.CV | Parameter Efficient Fine-Tuning of Segment Anything Model for Biomedical Imaging はコメントを受け付けていません

OmniCaptioner: One Captioner to Rule Them All

要約 Omnicaptionerを提案します。これは、さまざまな視覚ドメインにわ … 続きを読む

カテゴリー: cs.CL, cs.CV | OmniCaptioner: One Captioner to Rule Them All はコメントを受け付けていません

DIS-CO: Discovering Copyrighted Content in VLMs Training Data

要約 トレーニングデータに直接アクセスすることなく、著作権で保護されたコンテンツ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | DIS-CO: Discovering Copyrighted Content in VLMs Training Data はコメントを受け付けていません

CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image

要約 このペーパーは、ロボット操作タスクにおける明確なオブジェクトのカテゴリレベ … 続きを読む

カテゴリー: cs.CV, cs.RO | CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image はコメントを受け付けていません

Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback

要約 既存の医療大規模視覚言語モデル(MED-LVLMS)は、広範な医療知識をカ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback はコメントを受け付けていません