投稿者「jarxiv」のアーカイブ

Progressive Human Motion Generation Based on Text and Few Motion Frames

投稿日: 2025年3月18日作成者: jarxiv

要約既存のテキストからモーション（T2M）メソッドは、テキストの説明から現実的 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation

投稿日: 2025年3月18日作成者: jarxiv

要約単眼画像からの3Dハンドのポーズと潜在的な手持ちのオブジェクトを推定するこ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Integrating AI for Human-Centric Breast Cancer Diagnostics: A Multi-Scale and Multi-View Swin Transformer Framework

投稿日: 2025年3月18日作成者: jarxiv

要約コンピューター支援診断（CAD）システムの進歩にもかかわらず、乳がんは世界 … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

Classifier-Free Guidance inside the Attraction Basin May Cause Memorization

投稿日: 2025年3月18日作成者: jarxiv

要約拡散モデルは、トレーニングデータから画像を正確に再現する傾向があります。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

投稿日: 2025年3月18日作成者: jarxiv

要約テキストからイメージ（T2I）生成モデルはユビキタスになっていますが、特定 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis

投稿日: 2025年3月18日作成者: jarxiv

要約ポートレートビデオ統合タスクのための微調整オープンソースの大規模VDMは、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Edit Transfer: Learning Image Editing via Vision In-Context Relations

投稿日: 2025年3月18日作成者: jarxiv

要約新しい設定を紹介し、転送を編集します。ここでは、モデルが単一のソースターゲ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection

投稿日: 2025年3月18日作成者: jarxiv

要約最近の研究では、大きな視覚言語モデル（LVLM）がしばしばオブジェクトの幻 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

LEAVS: An LLM-based Labeler for Abdominal CT Supervision

投稿日: 2025年3月18日作成者: jarxiv

要約放射線レポートから構造化されたラベルの抽出が採用されており、視力モデルを作 … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans

投稿日: 2025年3月18日作成者: jarxiv

要約私たちは、多様な動物種や人間にわたるポーズの同時追跡と推定のために、変圧器 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

Progressive Human Motion Generation Based on Text and Few Motion Frames

UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation

Integrating AI for Human-Centric Breast Cancer Diagnostics: A Multi-Scale and Multi-View Swin Transformer Framework

Classifier-Free Guidance inside the Attraction Basin May Cause Memorization

Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings

MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis

Edit Transfer: Learning Image Editing via Vision In-Context Relations

Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection

LEAVS: An LLM-based Labeler for Abdominal CT Supervision

STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans

最近の投稿

最近のコメント

アーカイブ

カテゴリー