-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Progressive Human Motion Generation Based on Text and Few Motion Frames
要約 既存のテキストからモーション(T2M)メソッドは、テキストの説明から現実的 … 続きを読む
カテゴリー: cs.CV
Progressive Human Motion Generation Based on Text and Few Motion Frames はコメントを受け付けていません
UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation
要約 単眼画像からの3Dハンドのポーズと潜在的な手持ちのオブジェクトを推定するこ … 続きを読む
カテゴリー: cs.CV
UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation はコメントを受け付けていません
Integrating AI for Human-Centric Breast Cancer Diagnostics: A Multi-Scale and Multi-View Swin Transformer Framework
要約 コンピューター支援診断(CAD)システムの進歩にもかかわらず、乳がんは世界 … 続きを読む
Classifier-Free Guidance inside the Attraction Basin May Cause Memorization
要約 拡散モデルは、トレーニングデータから画像を正確に再現する傾向があります。 … 続きを読む
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings
要約 テキストからイメージ(T2I)生成モデルはユビキタスになっていますが、特定 … 続きを読む
カテゴリー: cs.CV
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings はコメントを受け付けていません
MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis
要約 ポートレートビデオ統合タスクのための微調整オープンソースの大規模VDMは、 … 続きを読む
カテゴリー: cs.CV
MagicDistillation: Weak-to-Strong Video Distillation for Large-Scale Portrait Few-Step Synthesis はコメントを受け付けていません
Edit Transfer: Learning Image Editing via Vision In-Context Relations
要約 新しい設定を紹介し、転送を編集します。ここでは、モデルが単一のソースターゲ … 続きを読む
カテゴリー: cs.CV
Edit Transfer: Learning Image Editing via Vision In-Context Relations はコメントを受け付けていません
Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection
要約 最近の研究では、大きな視覚言語モデル(LVLM)がしばしばオブジェクトの幻 … 続きを読む
カテゴリー: cs.CV
Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection はコメントを受け付けていません
LEAVS: An LLM-based Labeler for Abdominal CT Supervision
要約 放射線レポートから構造化されたラベルの抽出が採用されており、視力モデルを作 … 続きを読む
STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans
要約 私たちは、多様な動物種や人間にわたるポーズの同時追跡と推定のために、変圧器 … 続きを読む
カテゴリー: cs.CV
STEP: Simultaneous Tracking and Estimation of Pose for Animals and Humans はコメントを受け付けていません