cs.CV」カテゴリーアーカイブ

MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

要約 大規模なマルチモーダルモデルのトレーニングに広く使用されている自然言語画像 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

End-to-End Vision Tokenizer Tuning

要約 既存の視覚トークン化は、視覚トークンがさまざまなタスク、例えば画像生成や視 … 続きを読む

カテゴリー: cs.CV | コメントする

Depth Anything with Any Prior

要約 このワークは、以前の深さを提示します。これは、不完全であるが正確なメトリッ … 続きを読む

カテゴリー: cs.CV | コメントする

3D-Fixup: Advancing Photo Editing with 3D Priors

要約 拡散モデルを介したモデリング画像プリエアの大幅な進歩にもかかわらず、オブジ … 続きを読む

カテゴリー: cs.CV | コメントする

Behind Maya: Building a Multilingual Vision Language Model

要約 最近では、大規模なビジョン言語モデル(VLM)の急速な発展が見られました。 … 続きを読む

カテゴリー: cs.CL, cs.CV | コメントする

RT-cache: Efficient Robot Trajectory Retrieval System

要約 このホワイトペーパーでは、ビッグデータの検索を活用して経験から学ぶことによ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

OpenLKA: An Open Dataset of Lane Keeping Assist from Recent Car Models under Real-world Driving Conditions

要約 Lane Keeping Assist(LKA)は現代の車両で広く採用され … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

要約 衣服の変形性により、ロボット衣服操作タスクのために大量の高品質データを生成 … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする

AdaWorld: Learning Adaptable World Models with Latent Actions

要約 世界モデルは、アクション制御された将来の予測を学ぶことを目指しており、イン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | コメントする

METDrive: Multi-modal End-to-end Autonomous Driving with Temporal Guidance

要約 マルチモーダルエンドツーエンドの自律運転は、最近の研究で有望な進歩を示して … 続きを読む

カテゴリー: cs.CV, cs.RO | コメントする