月別アーカイブ: 2024年3月

Humanoid Locomotion as Next Token Prediction

要約 私たちは、言語における次の単語を予測するのと同様に、現実世界のヒューマノイ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Humanoid Locomotion as Next Token Prediction はコメントを受け付けていません

Towards Generalizable Tumor Synthesis

要約 腫瘍合成により、医療画像内に人工腫瘍を作成できるようになり、腫瘍の検出とセ … 続きを読む

カテゴリー: cs.CV, eess.IV | Towards Generalizable Tumor Synthesis はコメントを受け付けていません

Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress

要約 標準化されたベンチマークは、機械学習の進歩を促進します。 ただし、テストを … 続きを読む

カテゴリー: cs.CV, cs.LG | Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress はコメントを受け付けていません

Real-time Traffic Object Detection for Autonomous Driving

要約 最近のコンピュータービジョンの進歩により、自動運転は遅かれ早かれ現代社会の … 続きを読む

カテゴリー: cs.CV | Real-time Traffic Object Detection for Autonomous Driving はコメントを受け付けていません

Retrieval-Augmented Generation for AI-Generated Content: A Survey

要約 AIGC (Artificial Intelligence Generat … 続きを読む

カテゴリー: cs.CV | Retrieval-Augmented Generation for AI-Generated Content: A Survey はコメントを受け付けていません

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

要約 私たちは、画像内のオブジェクトの関係を理解するために設計された新しいモデル … 続きを読む

カテゴリー: cs.CV | The All-Seeing Project V2: Towards General Relation Comprehension of the Open World はコメントを受け付けていません

Learning a Generalized Physical Face Model From Data

要約 物理ベースのシミュレーションは、結果として生じる変形が物理的制約によって制 … 続きを読む

カテゴリー: cs.CV, cs.GR | Learning a Generalized Physical Face Model From Data はコメントを受け付けていません

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

要約 データとアノテーションの品質は、下流モデルの品質の上限となります。 大規模 … 続きを読む

カテゴリー: cs.CV | Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers はコメントを受け付けていません

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

要約 拡散モデルは高品質の画像を合成することに大きな成功を収めています。 ただし … 続きを読む

カテゴリー: cs.CV | DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models はコメントを受け付けていません

Generalizability Under Sensor Failure: Tokenization + Transformers Enable More Robust Latent Spaces

要約 神経科学の主な目標は、一般化する神経データ表現を発見することです。 この目 … 続きを読む

カテゴリー: cs.LG | Generalizability Under Sensor Failure: Tokenization + Transformers Enable More Robust Latent Spaces はコメントを受け付けていません