月別アーカイブ: 2025年3月

OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

要約 オープンボキャブラリー複数のオブジェクトトラッキングは、トレーニング中にト … 続きを読む

カテゴリー: cs.CV | OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer はコメントを受け付けていません

DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation

要約 この作業では、テキストからイメージの生成のための拡散トランス(DIT)を経 … 続きを読む

カテゴリー: cs.CV | DiT-Air: Revisiting the Efficiency of Diffusion Model Architecture Design in Text to Image Generation はコメントを受け付けていません

DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding

要約 大規模なマルチモーダルモデル(LMM)は、さまざまな視覚的質問応答(VQA … 続きを読む

カテゴリー: cs.CV, cs.RO | DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding はコメントを受け付けていません

Transformers without Normalization

要約 正規化層は、現代のニューラルネットワークで遍在しており、長い間不可欠である … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Transformers without Normalization はコメントを受け付けていません

ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness

要約 ボディを3D服を着た人間のポイントクラウドに取り付けることは、一般的であり … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | ETCH: Generalizing Body Fitting to Clothed Humans via Equivariant Tightness はコメントを受け付けていません

LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

要約 単一の画像からのアニメーション可能な3Dヒト再構築は、ジオメトリ、外観、お … 続きを読む

カテゴリー: cs.AI, cs.CV | LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds はコメントを受け付けていません

NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models

要約 ヒューマノイドロボット、4倍、動物など、多様で型破りな形態学を介して身体的 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | NIL: No-data Imitation Learning by Leveraging Pre-trained Video Diffusion Models はコメントを受け付けていません

SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems

要約 大規模なマルチモーダルモデル(LMMS)の急速な進歩により、科学的問題解決 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | SciVerse: Unveiling the Knowledge Comprehension and Visual Reasoning of LMMs on Multi-modal Scientific Problems はコメントを受け付けていません

Hierarchical Self-Supervised Adversarial Training for Robust Vision Models in Histopathology

要約 敵対的な攻撃は、信頼性が不可欠なヘルスケアのような重要な分野の視界モデルに … 続きを読む

カテゴリー: cs.CV | Hierarchical Self-Supervised Adversarial Training for Robust Vision Models in Histopathology はコメントを受け付けていません

UniGoal: Towards Universal Zero-shot Goal-oriented Navigation

要約 この論文では、ユニバーサルゼロショットの目標指向ナビゲーションの一般的なフ … 続きを読む

カテゴリー: cs.CV, cs.RO | UniGoal: Towards Universal Zero-shot Goal-oriented Navigation はコメントを受け付けていません