月別アーカイブ: 2024年3月

Humanoid Locomotion as Next Token Prediction

投稿日: 2024年3月1日作成者: jarxiv

要約私たちは、言語における次の単語を予測するのと同様に、現実世界のヒューマノイ … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Towards Generalizable Tumor Synthesis

投稿日: 2024年3月1日作成者: jarxiv

要約腫瘍合成により、医療画像内に人工腫瘍を作成できるようになり、腫瘍の検出とセ … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress

投稿日: 2024年3月1日作成者: jarxiv

要約標準化されたベンチマークは、機械学習の進歩を促進します。ただし、テストを … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Real-time Traffic Object Detection for Autonomous Driving

投稿日: 2024年3月1日作成者: jarxiv

要約最近のコンピュータービジョンの進歩により、自動運転は遅かれ早かれ現代社会の … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Retrieval-Augmented Generation for AI-Generated Content: A Survey

投稿日: 2024年3月1日作成者: jarxiv

要約 AIGC (Artificial Intelligence Generat … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

投稿日: 2024年3月1日作成者: jarxiv

要約私たちは、画像内のオブジェクトの関係を理解するために設計された新しいモデル … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Learning a Generalized Physical Face Model From Data

投稿日: 2024年3月1日作成者: jarxiv

要約物理ベースのシミュレーションは、結果として生じる変形が物理的制約によって制 … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

投稿日: 2024年3月1日作成者: jarxiv

要約データとアノテーションの品質は、下流モデルの品質の上限となります。大規模 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

投稿日: 2024年3月1日作成者: jarxiv

要約拡散モデルは高品質の画像を合成することに大きな成功を収めています。ただし … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Generalizability Under Sensor Failure: Tokenization + Transformers Enable More Robust Latent Spaces

投稿日: 2024年3月1日作成者: jarxiv

要約神経科学の主な目標は、一般化する神経データ表現を発見することです。この目 … 続きを読む →

カテゴリー: cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年3月

Humanoid Locomotion as Next Token Prediction

Towards Generalizable Tumor Synthesis

Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress

Real-time Traffic Object Detection for Autonomous Driving

Retrieval-Augmented Generation for AI-Generated Content: A Survey

The All-Seeing Project V2: Towards General Relation Comprehension of the Open World

Learning a Generalized Physical Face Model From Data

Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

Generalizability Under Sensor Failure: Tokenization + Transformers Enable More Robust Latent Spaces

最近の投稿

最近のコメント

アーカイブ

カテゴリー